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译 AF 


继 计算 机 、 互 联网 和 移动 通信 之 后 ， 物 联网 在 现今 信息 产业 中 的 地 位 无 可 比拟 ， 它 在 
各 个 行业 中 的 发 展 也 是 如 日 中 天 ， 备 受 瞩 目 。 物 联网 诞生 于 互联 网 和 移动 互联 网 高 速 发 展 
的 时 代 ， 迎 合 了 所 有 行业 对 数据 联网 的 迫切 需求 。 今 天 ， 联 网 设备 早已 不 仅仅 是 智能 手机 
和 计算 机 ， 而 是 覆盖 到 了 智能 家 居 、 交 通 物流 、 工 业 和 医疗 保健 等 各 种 不 同 的 领域 。 此 外 ， 
各 个 领域 每 时 每 刻 都 在 产生 大 量 的 数据 ， 人 们 也 无 时 无 刻 不 在 思考 ， 如 何 才能 高 效 地 对 这 
些 数据 加 以 分 析 和 利用 。 而 物 联网 无 疑 相当 于 一 座 价值 连城 的 宝藏 ， 它 产生 的 海量 数据 中 
所 列 含 的 价值 无 法 估量 。 因 此 ， 物 联网 的 真正 价值 仍 亟 须 人 们 去 深入 挖掘 充分 利用 ， 以 创 
造 更 为 美好 的 未 来 。 

如 何 对 物 联网 尤其 是 企业 的 商业 问题 进行 数据 分 析 并 解决 问题 ， 这 正 是 本 书 的 价值 所 
在 。 在 本 书 中 ， 作 者 没有 采用 人 人 熟知 的 “大 数据 分 析 ” 甚 至 “数据 科学 ”这 些 热 词 做 相 
关 论述 ， 而 是 精辟 地 提出 了 “决策 科学 ”的 概念 ， 将 “决策 科学 ”与 “数据 科学 ”的 细微 
区 别 曾 述 清楚 。 通 过 决策 科学 在 物 联网 中 的 应 用 ， 自 然而 然 地 向 读者 阐明 了 这 两 者 的 交叉 
点 一 一 智能 决策 的 重要 性 和 影响 。 同 时 循序 渐进 地 将 各 种 统计 分 析 技 术 和 机 器 学 习 算 法 ， 
与 物 联 网 商业 用 例 分 析 紧 密 结合 ， 深 入 浅 出 地 介绍 给 读者 。 

市 面 上 关于 大 数据 分 析 的 书籍 浩如烟海 ， 但 是 针对 决策 科学 和 物 联网 结合 应 用 ， 分 析 
解决 实际 商业 问题 的 书籍 并 不 多 见 。 本 书 作者 采用 平实 朴素 的 语言 ， 将 现实 生活 中 的 物 联 
网 案例 娓 娓 道 来 ， 让 读者 对 决策 科学 、 物 联网 以 及 智能 决策 在 这 些 案例 中 的 分 析 和 应 用 了 
如 指 掌 。 即 使 没有 具备 数据 分 析 基 础 但 又 对 这 些 主题 感 兴趣 的 读者 ， 也 能 跟随 作者 清晰 严 
谨 的 思路 轻松 地 完成 本 书 的 阅读 ， 并 且 最 终 不 仅 能 够 掌握 本 书 的 实用 知识 和 分 析 技 术 用 以 
解决 实际 的 商业 问题 ， 而 且 也 能 够 领会 其 中 的 奥妙 拓展 视野 。 

作者 在 序言 中 已 向 读者 介绍 了 本 书 以 及 各 个 章节 的 主要 内 容 。 因 此 ， 我 在 此 就 不 再 殉 
述 ， 感 兴趣 的 读者 可 以 仔细 阅读 序言 以 了 解 本 书 概要 。 这 里 ， 我 想 和 读者 分 享 翻译 本 书 时 
的 一 些 心 得 体会 ， 希 望 有 助 于 读者 理解 本 书 的 内 容 ， 同 时 也 希望 能 够 由 此 向 各 位 同行 和 专 
业 人 士 虚心 求教 ， 以 便 日 后 改进 。 

本 人 在 实际 工作 中 也 遇 到 过 许多 类 似 的 情况 ， 如 曾 在 公司 时 为 美国 Breault Research 
Organization,Inc. 的 高 级 光学 系统 分 析 软 件 产品 进行 市 场 推广 。 在 推广 这 些 产 品 的 过 程 中 ， 
与 国内 外 著名 的 高 校 、 科 研 院 所 和 企业 交流 时 ， 并 没有 将 他 们 业已 熟知 且 广 泛 采 用 的 术语 
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翻译 成 中 文 。 如 果 为 了 翻译 而 翻译 ， 生 硬 地 将 业界 专业 人 士 熟知 的 术语 翻译 出 来 ， 反 而 会 
造成 理解 和 交流 上 的 障碍 。 这 在 科技 口译 上 也 是 如 此 ， 本 人 数 年 来 在 为 上 述 公司 做 技术 交 
流 现场 翻译 实践 中 ， 也 切身 体会 到 这 一 点 。 所 以 ， 根 据 受 众 的 实际 情况 ， 而 选择 相应 合适 
的 翻译 策略 ， 是 非常 有 必要 的 。 由 此 也 深 深 认同 作者 在 本 书 第 $ 章 中 讨论 如 何 判断 模型 达 
到 学 习 饱和 度 时 提出 的 观点 ， 即 通过 数据 分 析 实 践 从 观察 中 而 非 仅仅 依靠 数学 计算 得 出 一 
个 判断 标准 。 

因此 ， 阅 读本 书 不 仅 能 够 掌握 决策 科学 应 用 在 物 联 网 商业 用 例 的 分 析 技 能 ， 在 对 及 语 
言 进 行 熟练 运用 、 精 通 智能 决策 之 奥妙 的 同时 ， 也 能 学 习作 者 在 数据 分 析 时 的 科学 严谨 态 
度 和 清晰 的 逻辑 思维 。 

此 外 ， 我 还 要 由 衷 地 感谢 我 的 先生 赵勇 。 在 我 繁忙 翻译 期 间 ， 他 针对 书 中 涉及 数学 的 
部 分 提出 专业 的 意见 ， 并 且 就 一 些 内 容 提 出 犀利 但 颇具 建设 性 的 建言 ， 激 励 我 深入 探索 不 
熟悉 的 领域 。 感谢 亲朋 人 挚友 的 鼓励 和 支持 , 我 才 得 以 克服 种 种 困难 最 终 完成 这 本 书 的 翻译 。 

本 书 的 翻译 由 吴 骅 组 织 完成 。 参 与 本 书 翻译 的 还 有 王 学 昌 、 周 娟 、 刘 红军 、 王 玲 、 郑 
正 正 、 秦 双 夏 、 莫 鸿 强 、 李 远 明 、 陶 日 然 、 黄 善 斌 、 廖 义 硅 、 杨 莉 灵 等 人 ， 感 谢 这 些 人 士 
帮助 。 没 有 他 们 的 帮助 就 无 法 完成 这 项 工作 。 由 于 水 平 有 限 ， 译文 中 的 不 当 之 处 在 所 难免 ， 
恳请 同行 及 各 位 读者 朋友 不 音 赐教 。 
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物 联 网 和 决策 科学 一 跃 成 为 时 下 业界 最 为 热门 的 话题 。 可 是 ， 我 们 今天 要 解决 的 问题 
变 得 越 来 越 不 清晰 、 不 确定 和 不 稳定 ， 解 决 问题 的 方法 也 是 变 得 如 此 。 而 且 ， 解 决 问题 从 
使 用 数据 科学 解决 一 个 具体 问题 ， 演 变 成 为 了 应 用 决策 科学 解决 问题 的 一 门 技术 。 物 联网 
为 企业 提供 了 一 个 千载难逢 的 机 遇 ， 将 人 们 的 生活 变 得 愈加 轻松 ， 但 是 若 要 实现 这 一 目 
标 ， 惟 有 利用 决策 科学 方 能 物 尽 其 用 。《 智 能 决策 一 一 当 大 数据 遇见 物 联网 》 Smarter 
Decisions—— The Intersection of Internet of Things and Decision Science) 将 有 助 读者 了 解 物 
联网 和 决策 科学 的 细微 差别 ， 通 过 解决 现实 生活 中 的 工业 和 消费 物 联 网 用 例 ， 切 实地 帮助 
读者 做 出 明智 决策 。 本 书 着 重 解决 一 个 根本 问题 。 因 此 ， 书 中 整个 过 程 都 是 借助 生动 有 趣 
且 通 俗 易 懂 的 商业 用 例 ， 采 用 决策 科学 行业 标准 框架 去 解析 、 设 计 、 执 行 并 阐述 问题 。 在 
解决 商业 用 例 的 同时 ， 我 们 会 利用 最 流行 的 开源 软件 “R 语言 ”， 学 习 一 套 完整 的 数据 科 
学 系统 ， 即 描述 性 分 析 (descriptive analytics) 、 探 查 性 分 析 Cinquisitive analytics) 、 预 测 
性 分 析 Cpredictive analytics) 和 规范 性 分 析 (prescriptive analytics) 四 者 相 结合 的 系统 。 阅 
至 本 书 结尾 ， 读 者 将 完全 领悟 到 在 物 联网 中 做 出 决策 的 复杂 性 ， 并 且 能 够 将 书 中 知识 应 用 
于 任何 项 目 中 。 


本 书 主要 内 容 


第 1 章 物 联 网 和 决策 科学 : 采用 现实 生活 中 直观 易 懂 的 例子 ， 清 晰 概述 了 本 书 两 个 
最 重要 的 主题 ,本 章 简 明 扼要 地 讲述 物 联网 及 其 演变 , 以 及 物 联网 (Internet of Things, IoT), 
工业 物 联 网 (Industrial IoT，IIoT)、 工 业 互 联网 (Industrial Internet). 和 万 物 互联 CInternet 
of Everything，IoE) 四 者 的 主要 区 别 。 此 外 ， 通 过 问题 以 及 问题 在 其 体系 中 的 发 展演 变 来 
诠释 决策 科学 。 最 后 ， 本 章 探索 问题 解决 框架 ， 研 究 解决 问题 的 决策 科学 方法 。 

第 2 章 物 联网 问题 体系 研究 和 用 例 设计 : 本 章 引 出 一 个 现实 生活 中 的 物 联网 商业 问 
题 , 应 用 第 1 章 所 学 的 一 个 成 熟 结构 化 问题 解决 框架 , 帮助 读者 实际 设计 问题 的 解决 方案 。 
本 章 还 介绍 了 物 联 网 中 的 两 个 主要 领域 即 资产 互联 Cconnected assets) 和 运营 互联 


Hye 当 大 数据 遇见 物 联网 一 一 智能 决策 解决 之 道 


Cconnected operations) ， 以 及 用 于 解析 和 设计 商业 问题 解决 方案 的 各 种 工具 和 思想 领导 力 
框架 〈thought leadership frameworks) 。 

第 3 章 探索 性 决策 科学 在 物 联网 中 的 应 用 内 容 和 原因 : 采用 R 语言 进行 探索 性 数据 
分 析 ， 着 重 切 实 解 决 第 2 章 设计 的 物 联 网 商业 用 例 。 选 取 一 个 匿名 和 屏蔽 数据 集 用 于 商业 
例 ， 同 时 依托 实践 练习 帮助 读者 把 握 决 策 科学 描述 性 分 析 和 探查 性 分 析 这 两 个 阶段 。 本 
章 通过 执行 单 变 量 分 析 、 双 变量 分 析 以 及 各 种 统计 检验 来 验证 结果 ， 回 答 两 个 基本 的 问 
题 即 〈 探 索性 决策 科学 ) “是 什么 ”和 “为 什么 ”， 以 此 阅 述 问题 的 解决 方案 ， 呈 现 本 章 
内 容 。 

第 4 章 ”预测 性 分 析 在 物 联网 中 的 应 用 : 利用 预测 性 分 析 增 强 商业 用 例 解决 方案 。 在 
本 章 中 ， 我 们 回答 了 “ 何 时 ”这 个 问题 ， 更 清晰 有 效 地 解决 问题 。 与 此 同时 ， 探 讨 了 线性 
回归 、Logistic 回归 和 决策 树 等 多 种 统计 模型 ， 解 决 第 3 章 商 业 用 例 在 探查 性 分 析 阶 段 出 
现 的 不 同 预测 性 问题 。 还 通过 直观 的 例子 来 理解 算法 的 数学 功能 ， 以 及 解释 结果 的 简单 方 
法 ， 这 些 都 为 物 联网 的 预测 性 分 析 黄 定 了 基础 。 

第 5 章 利用 机 器 学 习 增 强 物 联网 预测 性 分 析 ， 尝试 采取 随机 森林 、XgBoost 等 尖端 
机 器 学 习 算法 和 多 层 感知 器 等 深度 学 习 算法 ， 改 进 第 4 章 中 预测 建 模 练习 的 结果 。 经 由 改 
进 算法 而 获得 了 改进 后 的 结果 后 ， 利 用 决策 科学 的 3 个 不 同 分 析 层 面 : 描述 性 分 析 、 探 查 
性 分 析 和 预测 性 分 析 ， 最 终 完 成 了 商业 用 例 的 解决 方案 。 

第 6 章 决策 科学 结合 物 联网 的 分 析 速 成 : 本章 自始至终 尝试 解决 男 一 个 绒 新 的 物 联 
网 用 例 ， 巩 固 了 迄今 为 止 学 习 到 的 解决 问题 的 技巧 。 通 过 速成 的 学 习 模式 ， 对 解析 、 设 计 
和 解决 物 联网 问题 的 整个 过 程 进行 亲 述 。 

第 7 章 ”规范 性 科学 与 决策 ， 利 用 一 个 假设 用 例 介绍 决策 科学 的 最 后 一 层 分 析 ， 即 规 
范 性 分 析 。 本 章 选 择 数 个 简单 易学 的 例子 来 说 明 ， 一 个 问题 从 描述 性 分 析 到 探查 性 分 析 、 
预测 性 分 析 ， 最 后 到 规范 性 分 析 再 周而复始 地 演变 整个 过 程 。 在 应 用 规范 性 分 析 解 决 问题 
的 过 程 中 ， 我 们 详细 探讨 了 做 出 决策 和 撰写 故事 的 技术 ， 以 将 分 析 结 果 清 清楚 楚 地 展示 
出 来 。 

第 8 章 物 联网 的 颠覆 性 创新 : 本 章 通过 对 一 些 像 雾 计算 、 认 知 计算 、 下 一 代 机 器 人 、 
基因 组 学 和 自动 驾驶 汽车 的 研究 ， 探 讨 了 目前 物 联网 的 颠覆 性 创新 。 最 后 ， 简 要 介绍 了 物 
联网 的 隐私 和 安全 问题 。 

第 9 章 物 联网 的 光明 前 景 : 讨论 了 物 联网 前 所 未 有 的 发 展会 在 不 久 的 将 来 如 何 从 根 
本 上 改变 人 们 的 生活 。 本 章 探讨 了 新 型 物 联网 商业 模式 的 前 瞻 性 话题 , 例如 资产 /设备 即 服 
务 ， 还 有 汽车 互联 向 智能 汽车 以 及 人 类 互联 向 智能 人 类 的 演变 。 
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本 书 所 需 的 配置 


为 了 让 学 习 效 率 更 高 ， 读 者 须 配备 一 台 安装 有 Windows. Mac 或 Ubuntu 系统 的 计算 机 。 

下 载 并 安装 R 语言 来 执行 本 书 中 的 代码 。 可 通过 CRAN 网 站 下 载 安装 R 语言 ， 网 址 
为 http://cran.r-project.org/。 书 中 全 部 代码 都 是 用 RStudio 编写 的 。RStudio 是 一 个 及 语言 的 
集成 开发 环境 ， 下 载 网 址 为 http://www.rstudio.com/products/rstudio/。 

本 书 中 使 用 的 不 同 尺 语言 包 可 以 免费 下 载 并 安装 在 上 述 所 有 操作 系统 上 。 


本 书面 向 的 读者 


本 书 由 在 为 有 志 于 物 联网 分 析 项 目的 数据 科学 和 物 联网 爱好 者 或 项 目 经 理 而 编写 。 如 
果 读 者 掌握 了 RR 语言 库 的 基本 知识 ， 则 会 胜 人 一 筹 但 是 本 书 在 对 结果 进行 解释 时 不 会 受 
代码 影响 。 任 何 没有 具备 技术 知识 的 数据 科学 和 物 联网 爱好 者 不 仅 可 以 跳 过 代码 读 取 输出 
结果 ， 而 且 仍 然 能 够 应 用 这 些 结果 。 


小 节 标 题 介绍 


在 这 本 书 内 ， 读 者 会 发 现 一 些 经 常 出 现 的 标题 ， 如 做 好 充分 准备 、 操 作 步 又 、 工 作 原 
理 、 知 识 拓展 以 及 参考 资料 。 

为 了 清楚 说 明 如 何 完成 一 个 设计 流程 ， 本 书 使 用 如 下 小 节 标题 。 

做 好 充分 准备 

本 节 告 诉 读者 在 设计 流程 中 需要 什么 ， 介 绍 如 何 配置 所 需 的 软件 或 初始 设置 。 

操作 步骤 

本 节 包 含 设计 流程 所 遵循 的 步骤 。 

工作 原理 

本 节 通 常 是 针对 前 一 小 节 所 发 生 的 事情 做 出 详细 解释 。 
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知识 拓展 

本 节 包 含有 关 设 计 流 程 的 其 他 信息 ， 让 读者 对 设计 流程 有 更 多 的 了 解 。 
参考 资料 

本 节 为 设计 流程 提供 其 他 有 用 信息 的 链接 。 


体例 


在 本 书 中 ， 读 者 将 看 到 许多 用 以 区 分 不 同类 型 信息 的 文本 样式 。 下 面 是 这 些 样式 的 一 
些 例 子 ， 以 及 对 它们 含义 的 解释 。 

一 个 代码 块 文本 样式 设置 如 下 : 

<Contextpath="/jira"docBase="$ {catalina.home} 


/atlassian- jira" reloadable-"false" useHttpOnly="true"> 


任何 命令 行 输入 或 输出 书写 如 下 

mysql -u root -p 

在 菜单 或 对 话 框 中 ， 读 者 在 屏幕 上 看 到 的 单词 将 显示 在 文本 中 ， 如 下 ; “从 管理 面板 
中 选择 系统 信息 ”。 

表示 敬告 或 重要 事项 

人 表示 技巧 提示 。 


读者 反馈 


我 们 非常 欢迎 读者 反馈 。 读 者 可 随时 随地 告知 我 们 对 这 本 书 的 看 法 一 一 喜欢 或 不 喜欢 
哪些 内 容 。 读 者 反馈 对 我 们 不 可 或 缺 ， 这 些 反馈 会 帮助 我 们 编撰 读者 所 需 的 内 容 ， 让 读者 
最 大 限度 地 从 中 获 益 。 

如 果 是 一 般 的 反馈 意见 ， 只 需 发 电子 邮件 至 feedback@packtpub.com, 并 在 邮件 主题 中 
注 明 书 名 。 

如 果 读 者 擅长 某 专业 主题 ， 并 且 对 写作 或 撰写 书籍 感 兴趣 ， 请 参阅 我 们 的 作者 指南 ， 


网 址 


为 www.packtpub.comyauthors。 


客户 支持 


对 于 购买 了 帕克 特 出 版 有 限 公 司 书籍 的 读者 朋友 ， 我 们 还 会 提供 相应 的 支持 服务 。 


下 载 示例 代码 


者 从 其 


会 将 


搜索 


读者 可 以 登录 自己 的 账户 下 载 本 书 的 示例 代码 文件 : http:/www.packtpub.com。 如 果 读 
他 地 方 购 买 了 本 书 ， 请 访问 http://www.packtpub.com/support 并 注册 账户 ， 之 后 我 们 
文件 直接 发 送 给 读者 。 
下 载 代码 文 件 步骤 如 下 : 
(1) 使 用 电子 邮件 地 址 和 密码 登录 或 注册 我 们 的 网 站 。 
(2) 将 鼠标 指针 悬 停 在 顶部 的 SUPPORT 选项 卡 上 。 
(3) 单 击 Code Downloads&Errata。 
(4) 在 Search 搜索 框 中 输入 书 名 。 
(5) 选择 要 下 载 代码 文件 的 书籍 。 
(6) 从 已 购书 籍 的 下 拉 菜单 中 选择 。 
(7) 单 击 Code Download 下 载 代码 。 
也 可 登录 帕克 特 公司 网 站 , 单 击 书籍 网 页 上 的 Code Files 按钮 下 载 代码 文件 ,在 Search 
框 中 输入 书 名 后 可 访问 上 述 页 面 。 请 注意 ， 读 者 首先 要 登录 自己 的 账户 才 可 访问 。 
下 载 文件 后 ， 请 确保 使 用 最 新 版 的 解压 缩 软件 将 文件 夹 解压 : 
O WinRAR/7-Zip 适用 于 Windows. 
Ūū Zipeg/iZip/ UnRarX 适用 于 Mac. 
口 7-Zip /PeaZip 适用 于 Linux. 
这 本 书 的 代码 包 也 存放 在 GitHub E: https://github.com/PacktPublishing/Smarter-Decisions- 


The-Intersection-of-Intemet-of-Things-and-Decision-Science。 我 们 还 从 现 有 丰富 的 书籍 和 视 


频 资 


料 中 提供 了 其 他 代码 捆绑 包 https://github.com/PacktPublishing/。 欢 迎 读者 查看 ! 
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勘误 表 


尽管 我 们 已 经 竭尽 全 力 确保 内 容 的 准确 性 ， 但 仍然 无 法 保证 完全 没有 错误 。 如 果 读者 
在 本 书 中 发 现 了 错误 〈 可 能 是 文本 或 代码 的 问题 ) 并且 能 向 我 们 反映 ， 我 们 将 不 胜 感 激 。 
这 样 不 仅 能 让 其 他 读者 免 受 误 导 ， 同 时 也 会 帮助 我 们 改进 该 书 的 后 续 版 本 。 如 果 读 者 发 现 
任何 错误 ， 请 通过 http://www.packtpub.com/submit-errata 向 我 们 反映 。 登 录 网 站 后 选择 相 
应 的 书籍 ， 单 击 Errata Submission Form 勘误 提交 表格 链接 ， 然 后 输入 勘误 详情 。 一 旦 读者 
的 勘误 被 验证 ， 所 提交 的 勘误 信息 会 被 采纳 ， 而 且 这 些 勘误 将 被 上 传 到 我 们 的 网 站 或 添加 
到 该 书 勘误 部 分 下 的 现 有 清单 中 。 

如 果 要 查看 以 前 提交 的 勘误 表 ， 请 转 至 https://www.packtpub.com/books/content/support， 
然后 在 搜索 栏 中 输入 书 名 。 所 查询 的 信息 会 在 Errata 勘误 小 节 中 出 现 。 


版 权 保护 


互联 网 上 受 版 权 保 护 的 资料 被 盗版 是 所 有 媒介 都 面临 的 一 个 问题 。 帕 克 特 公司 非常 认 
真 地 保护 我 们 自己 的 版 权 和 许可 。 如 果 读 者 在 互联 网 上 发 现 有 任何 非法 盗版 我 们 的 作品 ， 
请 立即 给 我 们 提供 盗版 网 址 或 网 站 名 称 以 便 我 们 采取 合适 的 补救 措施 。 

读者 可 通过 copyright(?packtpub.com 与 我 们 联系 ， 将 可 疑 的 盗版 内 容 链接 发 给 我 们 。 

我 们 囊 心 感谢 读者 的 帮助 ， 在 保护 作者 和 我 们 自己 的 同时 ， 我 们 也 会 尽心 尽力 地 为 读 
者 发 行 更 有 价值 的 书籍 。 


读者 反馈 


如 果 读 者 对 本 书 内 容 有 任何 问题 ， 请 通过 questions@packtpub.com 与 我 们 联系 ， 我 们 
将 尽 最 大 努力 解决 这 些 问 题 。 


作者 简介 


乔 乔 。 莫 雷 伊 (Jojo Moolayil) 是 一 名 数据 科学 家 ， 现 居住 在 素 有 “印度 硅谷 ”之 称 
的 班加罗尔 。 他 在 决策 科学 和 物 联网 领域 拥有 四 年 以 上 的 行业 经 验 ， 并 且 与 诸多 行业 领先 
企业 进行 了 跨 多 个 垂直 方向 的 合作 ， 所 合作 的 都 是 一 些 具有 重大 影响 的 关键 项 目 。 目 前 ， 
莫 雷 伊 正在 和 工业 物 联网 数据 科学 的 先锋 和 领先 者 通用 电气 (GE) 公司 合作 。 

莫 雷 伊 出 生 和 成 长 在 印度 的 浦 那 ， 毕 业 于 浦 那 大 学 ， 主 修 信息 技术 工程 学 。 为 了 大 规 
模 解决 问题 ， 莫 雷 伊 在 决策 科学 中 发 现 了 个 中 门道 ， 而 且 在 早期 的 职业 生涯 里 也 学 会 了 如 
何 解决 多 个 垂直 行业 的 各 种 问题 。 之 后 ， 在 世界 最 大 的 纯 游 戏 分 析 提 供 商 穆 西 格 玛 公司 
(Mu Sigma Inc.) 开始 他 的 职业 生涯 ， 和 众多 财富 50 强 客户 的 领导 者 一 起 工作 。 后 来 , 为 
了 解决 日 益 复杂 的 (数据 ) 问题 ， 莫 雷 伊 与 物 联 网 结缘 ， 对 前 景 光明 的 消费 物 联网 和 工业 
物 联 网 领域 产生 了 浓厚 的 兴趣 。 作 为 最 早 进入 物 联网 分 析 行 业 的 冒险 者 之 一 ， 莫 雷 伊 对 他 
从 决策 科学 中 的 所 学 所 获 摄 芋 搬 华 ， 将 问题 解决 框架 以 及 他 从 数据 和 决策 科学 中 的 发 现 应 
用 到 物 联 网 中 去 。 

为 了 巩固 他 在 工业 物 联网 的 基础 ， 扩 大 各 种 问题 解决 实验 的 影响 力 ， 莫 雷 伊 加 入 了 一 
家 名 为 Flutura 的 物 联 网 分 析 初 创 公 司 。 这 家 公司 的 总 部 设 在 班加罗尔 光 谷 内 ， 成 长 快速 。 
Flutura 专注 于 工业 物 联 网 ， 专 门 研究 M2M (机 器 对 机 器 通信 ) 数据 分 析 。 莫 雷 伊 在 该 公 
司 任职 期 间 ， 为 全 球 领 先 的 制造 业 巨头 和 照明 解决 方案 提供 商工 作 ， 同 时 这 些 工作 也 增 
强 了 他 在 M2M 和 工业 物 联网 领域 解决 问题 的 能 力 。 由 于 他 一 心 向 往 追 求 大 规模 地 解决 
问题 ， 自 然而 然 地 就 从 “产品 ”维度 进行 思考 ， 很 快 也 投身 到 了 数据 科学 产品 和 平台 的 
开发 中 。 

APE Flutura 仅 短暂 停留 ， 随 后 就 到 工业 物 联网 的 领先 企业 GE 就 职 。 在 班加罗尔 
的 GE 里 ， 他 潜心 解决 工业 物 联网 用 例 的 决策 科学 问题 。 不 仅 如 此 ， 他 在 GE 的 工作 职责 
之 一 ， 还 包括 悉心 钻研 开发 工业 物 联网 的 数据 科学 和 决策 科学 的 产品 和 平台 。 

我 良心 地 感谢 Mu Sigma, Flutura 和 GE 这 三 家 公司 ， 感 谢 他 们 提供 的 所 有 机 会 ， 让 我 
得 以 在 决策 科学 和 物 联 网 领域 邀 游 探 索 知 识 。 我 还 要 对 工作 中 的 导师 萨 米 尔 。 马 达 范 
( Samir Madhavan ) 先生 和 德里 克 。 乔 斯 (Derick Jose) 先生 表示 深 深 的 谢意 和 感激 ， 在 
他 们 的 热心 帮助 下 ， 这 本 书 才 得 以 顺利 完成 。 


技术 评审 简介 


安宁 带 达 ，。 巴 萨 克 (Anindita Basak) 担任 全 球 软件 巨头 微软 公司 Azure 和 大 数据 的 顾 
问 ， 帮 助 合作 伙伴 和 客户 实现 Azure SaaS 解决 方案 架构 开发 ， 数 据 平台 和 分 析 指 导 实 施 。 
巴萨 克 不 仅 是 一 名 积极 活跃 的 博 主 ， 也 是 微软 Azure 论坛 的 贡献 者 、 顾 问 和 发 言 者 。 她 拥 
有 8 年 以 上 的 工作 经 验 ， 工 作 主 要 围绕 MicrosoftNet、Azure、 大 数据 及 分 析 进 行 。 在 巴萨 
克 早期 的 职业 生涯 中 ， 她 曾 被 微软 聘任 为 正式 员工 ， 也 作为 外 派 员 工 为 内 部 各 种 Azure H 
队 提 供 服务 。 最 近 她 担任 由 帕克 特 出 版 有 限 公司 (Packt Publishing Limited) 发 行 的 如 下 书 
籍 的 技术 评审 : (HDInsight 精 要 第 一 版 》( HDInsight Essentials First Edition) ~ (HDInsight 
精 要 第 二 版 》(HDInsight Essentials Second Edition) ~ (Hadoop 632) (Hadoop Essentials ) 
和 《微软 表格 建 模 指南 》 (Microsoft Tabular Modeling Cookbook) . 

我 要 感谢 我 的 母亲 和 父亲 一 安 迦 娜 。 巴 萨 克 ( Anjana Basak) 和 阿 吉 特 。 巴 萨 克 
(AjitBasak) ， 还 有 我 亲爱 的 弟弟 阿迪 蒂 亚 ( Aditya ) 。 没 有 你 们 的 帮助 和 鼓励 ， 我 无 法 
实现 我 的 人 生 目 标 。 
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第 1 章 物 联网 和 决策 科学 


物 联 网 CIoTO 和 决策 科学 一 跃 成 为 时 下 业界 最 津津 乐 道 的 话题 。 人 们 对 物 联网 或 许 
不 乏 耳 闻 目 睹 ， 亦 希望 能 够 对 物 联网 洞悉 底蕴。 可 是 令 人 失望 的 是 ， 互 联网 上 给 物 联网 
和 决策 科学 冠 以 诸多 名 称 和 定义 ， 但 是 这 些 名 称 和 定义 的 差异 却 含糊 不 清 ， 让 人 无 从 辩 
别 。 此 外 ， 决 策 科 学 从 一 个 新 兴 领 域 发 展 成 为 近年 来 业内 发 展 最 快 、 最 普遍 的 横向 领域 
之 一 。 随 着 数据 的 容量 、 多 样 性 和 准确 性 的 不 断 提 高 ， 决 策 科学 对 于 产业 而 言 越 来 越 有 
价值 。 利 用 数据 揭示 出 潜在 的 模式 和 隐匿 其 中 的 洞 见 来 解决 商业 问题 ， 使 企业 能 够 发 挥 
更 佳 的 影响 力 和 更 高 的 准确 性 ， 进 而 采取 行动 也 更 加 容易 了 。 

数据 是 这 个 产业 的 新 石油 。 随 着 物 联网 的 蓬勃 发 展 ， 人 们 如 今 正 处 于 一 个 奇妙 的 世 
界 里 ， 越 来 越 多 的 设备 与 互联 网 连接 ， 传 感 器 也 捕获 到 越 来 越 多 重要 的 粒度 (数据 ) HE 
度 ， 而 这 些 维度 从 未 被 接触 过 。 物 联网 改变 了 游戏 规则 ， 它 将 大 量 的 设备 互联 在 一 起 ; 
业界 正 迫 不 及 待 地 要 去 挖掘 物 联 网 的 巨大 潜力 以 将 其 物 尽 其 用 。 在 决策 科学 的 帮助 下 ， 
物 联网 的 真正 价值 和 重大 影响 得 以 变 成 现实 。 物 联网 本 身 就 已 产生 出 海量 的 数据 ， 人 们 
可 以 利用 决策 科学 和 物 联网 两 者 的 协作 ， 从 中 摆 取 洞 见 深入 解析 并 做 出 更 为 明智 的 决策 。 
本 书 将 通过 运用 一 种 结构 化 方法 来 解决 现实 生活 中 的 物 联 网 商业 问题 ， 让 读者 对 物 联网 
和 决策 科学 有 深入 细致 的 了 解 。 

在 本 章 中 ， 首 先 介绍 物 联网 和 决策 科学 问题 解决 的 基本 原理 ， 并 且 学 习 以 下 概念 : 
了 解 物 联网 并 揭秘 M2M、 物 联网 (IoT) 、 万 物 互联 (IoE) 和 工业 物 联网 (IIoT) 。 
深入 挖掘 物 联网 的 逻辑 堆栈 。 
研究 问题 的 生命 周期 。 
探索 问题 的 全 貌 。 
解决 问题 的 技术 。 
问题 解决 框架 。 

本 章 着 重 介绍 构建 问题 和 用 例 必 备 的 基础 知识 和 概念 ， 因 此 强烈 建议 读者 深入 探索 
本 章 。 由 于 本 章 没有 实践 练习 ， 相 信 大 多 数 软件 工程 师 会 跳 过 这 部 分 内 容 ， 直 接 转 到 后 
面 的 章节 。 但 是 ， 后 面 的 章节 在 上 下 文中 会 频繁 引用 这 里 阐述 的 概念 和 观点 。 因 此 ， 读 
者 在 继续 浏览 本 书 之 前 ， 仔 细 阅 读本 章 是 非常 重要 的 。 


DOODDODOD D 


jM 当 大 数据 遇见 物 联网 一 一 智能 决策 解决 之 道 


1.1 了 解 物 联 网 


在 开始 学 习 物 联网 前 ， 先 试 着 从 最 简单 的 语义 构造 来 理解 它 。 这 里 有 两 个 简单 的 词 
可 以 帮助 理解 整个 概念 ， 即 互联 网 和 物 。 那 么 互联 网 是 什么 ? 它 基 本 上 是 一 个 拥有 许多 
计算 设备 的 网 络 。 同 样 ， 物 是 什么 ? 它 可 能 是 指 具 有 互联 网 连接 的 现实 生活 的 任何 实体 。 
那么 此 时 从 物 联 网 解读 出 了 什么 信息 ? 物 联 网 即 是 一 个 连接 物 的 网 络 ， 一 旦 连接 到 网 络 
就 可 以 传输 和 接收 来 自 其 他 物 的 数据 。 这 就 是 对 物 联网 简明 扼要 的 描述 。 

现在 来 看 看 这 个 定义 。 物 联网 可 被 定义 为 不 断 增 长 的 物 (实体) 的 网 络 ， 这 些 物 的 
网 络 具 有 互联 网 连接 的 功能 , 而 且 也 具备 与 其 他 互联 网 设备 和 系统 之 间 相互 通信 的 功能 。 
物 联网 中 的 物 通过 传感器 在 设备 运行 过 程 中 捕获 重要 信息 , 而 设备 具有 互联 网 连接 功能 ， 
可 以 帮助 这 些 物 传输 信息 并 与 其 他 设备 和 网 络 进行 通信 。 而 今 当 人 们 讨论 物 联网 时 ， 还 
出 现 了 众多 像 工 业 互 联网 、M2M、 万 物 互联 等 一 些 类 似 的 术语 ， 人 们 发 现 很 难 理解 这 些 
术语 之 间 的 差异 。 在 分 辨 这 些 模糊 不 清 的 术语 差异 ， 了 解 物 联网 在 产业 中 的 演变 之 前 ， 
先 来 观察 一 个 简单 的 现实 生活 场景 ， 探 明 物 联网 到 底 是 什么 。 

举 一 个 简单 的 例子 来 揭 开 物 联网 是 如 何 运作 的 。 比 如 在 家 庭 中 ， 您 和 妻子 都 是 上 班 
族 ， 十 岁 的 儿子 还 在 上 学 。 夫 妻 俩 上 班 的 地 点 各 异 。 但 是 ， 您 的 家 中 配备 了 不 少 智能 设 
备 ， 例 如 智能 微波 炉 、 智 能 冰箱 和 智能 电视 。 此 时 您 还 在 办 公 室 里 忙于 工作 ， 而 您 的 智 
能 手机 却 收 到 儿子 乔 什 已 放学 回 到 家 的 通知 〈 乔 什 用 他 自己 的 智能 钥匙 打开 了 门 ) 。 于 
是 ， 您 用 智能 手机 启动 家 里 的 微波 炉 ， 加 热 事 先 放 在 里 面 的 三 明治 。 乔 什 从 智能 家 居 控 
制 器 上 也 收 到 了 消息 ， 知 道 您 已 经 给 他 热 好 了 三 明治 。 他 狼吞虎咽 吃 完 了 三 明治 后 ， 开 
始 为 准备 数学 考试 复习 功课 ， 而 您 也 继续 埋头 工作 。 过 了 一 会 儿 ， 又 收 到 消息 得 知 妻子 
已 经 到 家 了 〈 她 也 有 一 把 同样 的 智能 钥匙 ) 。 您 突然 意识 到 需要 回 家 辅导 儿子 的 数学 功 
课 。 这 时 您 再 次 拿 起 智能 手机 ， 为 三 人 设置 空调 温度 ， 同 时 点 开 应 用 程序 对 冰箱 除 霜 。 
十 五 分 钟 后 您 迈进 家 门 的 那 一 刻 ， 屋 子 里 的 空调 温度 早 就 调 好 了 。 然 后 您 就 走向 冰箱 从 
里 面 拿 出 一 铅 果 汁 ， 和 儿子 在 沙发 上 讨论 一 些 数学 问题 。 这 个 生活 场景 非常 直观 地 诠释 
了 物 联网 ， 对 吗 ? 

上 述 场景 究竟 是 如 何 发 生 的 ? 而 您 又 是 如 何 通过 手机 访问 和 控制 一 切 的 ? 这 正 是 物 
联网 的 工作 原理 ! 设备 之 间 可 以 相互 通信 ， 也 可 以 根据 收 到 的 信号 采取 相应 的 措施 ， 如 
图 1.1 所 示 。 
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图 1.1 
仔细 观察 这 个 一 模 一 样 的 场景 。 您 正在 办 公 室 里 ， 通 过 智能 手机 访问 空调 、 微 波 炉 、 
冰箱 和 家 庭 控制 器 。 毫 无 疑问 ， 这 些 设备 具有 互联 网 连接 功能 ， 一 旦 连接 到 网 络 ， 它 们 
就 能 够 发 送 和 接收 来 自 其 他 设备 的 数据 ， 根 据 信号 采取 行动 。 一 个 简单 的 协议 可 以 帮助 
这 些 设 备 理解 并 发 送 数 据 和 信号 到 连接 了 网 络 的 大 量 异 构 设备 上 。 稍 后 将 细 细 探究 这 个 
协议 以 及 这 些 设 备 是 如 何 相 互通 信 的 。 但 是 ， 在 此 之 前 ， 先 详细 介绍 这 项 科技 的 起 源 ， 
以 及 为 何 现今 会 涌现 出 各 式 各 样 的 名 称 用 于 物 联网 。 


12 揭秘 M2M、 物 联网 、 工 业 物 联网 和 万 物 互 联 


现在 粗略 了 解 了 物 联 网 之 后 ， 这 就 去 揭 开 它 起 源 的 面纱 。 随 后 将 要 探 明 的 几 个 问题 
是 : 物 联网 在 市 场 上 是 否 属于 一 种 新 兴 事 物 ? 它 是 什么 时 候 开始 的 ? 又 是 如 何 开始 的 ? 
M2M、 物 联网 、 万 物 互 联 等 以 及 所 有 这 些 不 同名 称 之 间 的 区 别 是 什么 如 此 等 等 类 似 的 问 
题 。 倘 若 人 们 试图 了 解 的 物 联网 基本 原理 ， 也 就 是 说 ， 在 一 个 网 络 中 相互 连接 的 机 器 或 
设备 ， 并 不 是 一 个 真正 全 新 的 、 极 具 挑 战 性 的 事物 ， 那 么 人 们 讨论 的 到 底 是 什么 呢 ? 

早 在 大 多 数 人 能 够 想到 之 前 , 关于 机 器 间 相 互通 信 的 讨论 就 已 经 热火 朝天 地 开始 了 ， 


“4。 当 大 数据 遇见 物 联 网 一 一 智能 决策 解决 之 道 


而 当时 这 种 现象 被 称 为 机 器 对 机 器 数据 (Machine to Machine Data) 。1950 年 年 初 ， 部 署 
用 于 航空 和 军事 行动 的 大 量 机 器 需要 自动 化 通信 和 远程 访问 服务 和 维护 。 而 一 切 起 源 均 
来 自 遥 测 技术 。 这 是 一 个 高 度 自动 化 的 通信 过 程 ， 从 中 收集 数据 ， 对 偏远 或 无 法 接近 的 
地 理 区 域 进行 测量 ， 再 通过 一 个 蜂窝 或 有 线 网 络 发 送 到 接收 器 ， 为 进一步 的 行动 进行 监 
视 工作 。 为 了 更 透彻 地 理解 这 一 点 ， 举 一 个 载 人 航天 飞机 进行 太空 探索 的 例子 。 在 航天 
飞机 上 安装 了 大 量 的 传感器 ， 监 测 宇航 员 的 身体 状况 、 环 境 以 及 航天 飞机 的 状况 。 这 些 
传感器 收集 到 的 数据 ， 会 被 发 送 回 地 球 上 的 分 站 ， 在 那里 的 一 个 团队 利用 这 些 数据 来 分 
析 以 及 采取 进一步 的 行动 ， 如 图 1.2 所 示 。 在 同时 期 里 ， 工 业 革 命 达 到 了 顶峰 ， 各 行 各 业 
部 署 了 大 量 机 器 。 虽 然 在 一 些 行业 里 遭遇 到 了 灾难 性 的 失败 ， 但 是 机 器 对 机 器 通信 和 远 
但 监控 也 在 迅速 增长 。 


遥测 技术 


发 送 传感器 
接收 传感器 捕获 的 数据 
捕获 的 数据 


图 12 


因此 ， 机 器 对 机 器 数据 也 就 是 M2M 诞生 了 ， 而 且 主要 是 用 于 遥测 技术 。 遗 憾 的 是 ， 
MM 并 没有 达到 应 有 的 程度 ， 这 主要 是 因为 它 开发 时 生 不 着 时 。 当 时 ,蜂窝 连 接 既 不 普 
遍 ， 也 不 便宜 ， 安 装 传感器 和 开发 基础 架构 来 收集 数据 ， 无 疑 是 一 个 天 价 交 易 。 因 此 ， 
只 有 一 小 部 分 商业 和 军事 用 例 采 用 了 M2M。 

后 来 ， 星 移 斗 转 ， 世 事变 更 。 互 联网 诞生 了 并 呈 指 数 繁荣 增长 。 连 接 到 互联 网 的 设 
备 数量 也 迅猛 激增 。 计 算 能 力 、 存 储 容量 以 及 通信 和 技术 基础 架构 大 规模 扩展 。 此 外 ， 
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将 设备 连接 到 其 他 设备 的 需求 也 在 不 断 增 长 ， 为 此 配置 基础 架构 的 成 本 变 得 无 比 实惠 且 
易于 掌控 。 物 联网 于 是 就 在 这 种 万 事 俱 备 的 良好 时 机 中 顺势 出 场 。M2M 和 物 联网 最 初 的 
主要 区 别 在 于 后 者 使 用 因特网 (IPV4/6) 作为 媒介 ， 而 前 者 使 用 蜂窝 或 有 线 连接 进行 通 
信 。 然而 , 这 主要 还 是 因为 它们 演变 的 时 间 。 今 日 的 重型 工程 行业 已 经 部 署 了 通过 IPV4/6 
网 络 进行 通信 的 机 器 ， 被 称 为 工业 物 联 网 (IIT). 或 有 时 称 为 M2M。 两 者 之 间 的 差异 是 
微乎其微 的 , 并 且 在 有 些 情 况 下 可 以 互 换 使 用 。 因 此 , 尽管 M2M 实际 上 是 物 联 网 的 始祖 ， 
但 而 今 两 者 几乎 没有 太 大 差别 。M2M 或 工业 物 联网 正在 积极 地 推动 物 联网 在 工业 领域 的 
颠覆 性 创新 。 

IoE 即 万 物 互联 ， 是 最 近 在 媒体 和 互联 网 上 出 现 的 一 个 术语 。 这 个 词 是 由 思科 公司 用 
一 个 非常 直观 的 定义 创造 而 来 的 。 它 强调 人 类 是 生态 系统 中 的 一 个 维度 。 这 是 一 种 定义 
物 联网 更 广泛 的 组 织 方式 。 万 物 互 联 在 逻辑 上 将 物 联网 生态 系统 分 解 为 更 小 的 组 件 ， 并 
以 一 种 非 同 小 可 的 创新 方式 简化 了 生态 系统 。 万 物 互联 将 其 生态 系统 划分 为 以 下 4 ME 
辑 单元 : 

a X. 
口 流程 。 
口 数据 。 
口 45. 

万 物 互联 建立 在 物 联网 的 基础 之 上 ， 被 定义 为 人 、 数 据 、 流 程 和 物 的 网 络 连接 。 总 
而 言 之 ， 与 物 联网 相关 的 所 有 术语 都 各 有 差异 ， 但 是 核心 上 它们 又 是 相同 的 ， 即 通过 一 
个 网 络 相互 连接 的 各 种 设备 。 而 为 术语 取 一 个 风格 各 异 的 名 称 ， 给 其 所 涉及 的 业务 赋予 
更 切实 的 内 涵 ， 例 如 工业 物 联网 和 M2M 用 于 (B2B) 重工 业 、 制 造 业 和 能 源 垂直 行业 ， 
而 消费 物 联 网 用 于 B2C 行业 等 。 


13. 深入 挖 握 物 联网 的 逻辑 堆栈 


清晰 认识 了 物 联 网 及 其 类 似 术语 之 后 ， 紧 接着 来 对 这 个 生态 系统 一 探究 竟 。 为 方便 
起 见 ， 学 习 堆 栈 的 4 个 逻辑 组 件 时 ， 本 书 将 IoE (万 物 互联 ) 简称 为 IT ( 物 联网 ) n 
图 1.3 所 示 。 

当 将 物 联网 生态 系统 分 解 为 逻辑 单元 时 ， 它 包含 了 人 、 流 程 、 数 据 和 物 。 下 面 开 始 
简要 介绍 这 些 组 件 。 
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人 们 每 天 都 在 使 用 设备 和 其 他 人 进行 交互 。 通 信 可 以 指 人 对 人 、 人 对 设备 或 设备 对 
设备 。 把 人 看 作物 联网 生态 系统 中 的 一 个 单独 的 维度 ， 是 一 个 至 关 重 要 的 举措 ， 因 为 理 
解 这 个 问题 的 复杂 性 极 具 挑战 。 人 在 互动 的 任意 一 端 发 挥 作用 时 ， 此 时 任何 形式 的 通信 
都 会 发 生 ， 因 此 这 会 嵌入 一 种 本 质 上 以 人 为 维度 的 独特 模式 。 现 在 举 一 个 例子 以 更 清楚 
地 理解 这 一 点 。 大 多 数 人 使 用 Facebook, Twitter. LinkedIn 等 社交 媒介 ， 与 多 个 人 /朋友 
连接 。 此 时 ， 通 信 路 径 主 要 是 人 对 人 。 比 如 前 面 的 例子 ， 就 出 现 了 人 对 设备 和 设备 对 人 
的 通信 路 径 〈 智 能 手机 和 微波 炉 之 间 的 通信 ) 。 将 人 作为 一 个 维度 ， 每 个 人 在 与 系统 交 
互 的 方式 上 都 会 有 所 不 同 。 一 个 人 可 能 会 发 现 Facebook 的 新 界面 难以 操作 ， 但 是 他 的 一 
个 朋友 可 能 会 觉得 简单 易 用 。 真 正 的 问题 是 ， 每 个 人 都 很 熟练 ， 但 是 技能 因 人 而 异 。 由 
一 个 人 确定 的 互动 特征 也 许 会 体现 出 一 小 群体 的 特征 。 

世界 上 有 六 十 多 亿 人 口 ， 其 中 超过 六 分 之 一 的 人 口 早已 连接 起 来 了 。 由 于 人 口 众多 ， 
也 代表 了 不 同 地 域 、 不 同文 化 、 不 同 思维 和 不 同行 为 的 一 大 批 人 群 ， 因 此 定义 一 套 通用 
的 规则 或 特征 来 界定 人 际 互动 无 疑 是 一 个 巨大 的 挑战 。 相 反 ， 如 果 以 更 具 建 设 性 的 方式 
理解 人 的 维度 ， 就 能 抓 住 机 会 更 准确 地 捕捉 到 人 的 行为 特征 ， 通 过 最 好 的 方式 帮助 他 们 
从 生态 系统 中 受益 。 

随 着 物 联 网 的 崛 地 而 起 ， 拥 有 的 传感器 能 够 捕获 到 比 以 往 更 细致 详尽 的 信息 和 特征 。 
这 时 ， 如 果 能 够 精确 地 将 人 定义 为 一 个 完整 的 维度 ， 那 么 个 性 化 的 体验 将 完全 改变 游戏 
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规则 。 智 能 手表 行业 正在 全 力 以 赴 想 让 产品 更 加 个 性 化 ， 倘 若 成 功 的 话 ， 就 会 在 即将 到 
来 的 智能 革命 浪潮 中 ， 摇 身 一 变 成 为 其 中 的 关键 一 员 。 


1.8.2 流程 


对 流程 最 清晰 的 定义 是 ， 将 正确 的 信息 在 正确 的 时 间 提 供给 正确 的 人 员 / 系 统 所 需要 
的 一 切 东 西 。 技 术 、 协 议 、 业 务 逻 辑 、 通 信 基 础 架构 等 在 内 的 各 个 方面 都 属于 流程 维度 。 
从 广义 上 讲 ， 它 们 可 以 分 为 两 个 部 分 : 技术 流程 和 业务 流程 。 紧 接着 简略 地 探讨 这 两 个 
组 件 ， 以 便 对 流程 维度 也 知之 其 详 。 

1. 技术 

物 联 网 流程 维度 所 需 的 技术 包括 软件 、 协 议和 基础 架构 。 下 面 将 通过 流程 的 3 大 方 
面 来 了 解 技术 流程 。 

(1) 软件 

软件 主要 由 操作 系统 组 成 。 物 联网 中 的 设备 需 用 一 种 特殊 的 操作 设备 。 诸 如 智能 
箱 、 智 能 微波 炉 等 智能 设备 需要 使 用 运行 在 这 些 设 备 上 的 操作 系统 ， 才 能 成 为 网 络 中 的 
活动 组 件 。 发 送 、 处 理 和 接收 数据 ， 或 者 执行 指令 并 发 送信 号 到 设备 相应 的 控制 器 以 执 
行 操作 ， 这 些 执 行 的 任务 会 各 不 相同 。 现 在 问题 出 现 了 ， 为 什么 这 些 设备 要 用 到 一 个 特 
殊 的 操作 系统 呢 ?” 为 什么 不 能 采用 UNIX/Linux, Windows, Mac, HÆ Android 这 些 现 
有 丰富 的 系统 ? 这 是 与 之 前 在 智能 手机 上 使 用 Android 而 不 是 现 有 的 操作 系统 的 原因 是 
如 出 一 秒 的 。 由 于 连接 到 物 联 网 网 络 的 设备 很 小 或 有 时 非常 微小 。 理 想 情 况 下 ， 这 些 设 
备 配 备 较 弱 的 计算 能 力 ， 较 少 的 内 存 和 较 短 的 电池 寿命 。 在 它们 上 面 运行 一 套 完整 的 操 
作 系统 几乎 是 不 可 能 的 。 需 要 一 个 专门 设计 的 操作 系统 ， 可 以 应 对 设备 的 有 限 内 存 、 处 
理 能 力 和 电池 寿命 , 同时 提供 最 大 的 功能 将 设备 标记 为 智能 设备 。 谷 歌 公 司 CGoogle Inc.) 
最 近 推 出 了 一 款 名 为 Brillo 的 物 联网 设备 操作 系统 。Brillo 是 一 款 基 于 Android 的 嵌入 式 
操作 系统 ， 专 为 低 功 耗 和 内 存 受 限 的 物 联 网 设备 而 设计 。 它 提供 物 联网 设备 所 需 的 核心 
平台 服务 ， 以 及 为 开发 人 员 / 硬 件 供 应 商 免费 提供 一 套 开发 人 员工 具 包 ， 让 操作 系统 在 其 
设备 上 运行 并 在 设备 上 增加 附加 服务 。 一 些 类 似 的 例子 如 苹果 公司 (Apple Inc.) 的 Watch 
OS 用 于 Apple Watch 上 ， 谷 歌 公司 的 Android Wear 用 在 智能 手表 等 。 很 快 ， 就 可 以 期 待 
一 大 批 运行 Brillo 的 设备 以 及 大 量 的 应 用 程序 出 现 , 这 些 应 用 程序 可 进行 额外 的 安装 , 实 
现 更 好 的 功能 C5 Google Play 应 用 商店 非常 相似 ) 。 
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(2) 协议 

一 旦 设备 启用 软件 ， 就 需要 获得 一 个 协议 ， 以 帮助 它们 与 网 络 中 的 其 他 异 构 设备 进 
行 通信 。 为 了 更 清晰 地 理解 这 一 点 ， 回 忆 本 书 的 第 一 个 例子 ， 在 那个 例子 中 可 以 使 用 知 
能 手机 对 冰箱 除 霜 。 智 能 手机 需 能 与 冰箱 进行 通信 ， 而 冰箱 也 要 知道 智能 手机 到 底 在 传 
达 什 么 信息 。 由 于 异 构 设备 品类 繁多 ， 这 个 通信 路 径 变 得 越 来 越 复杂 。 因 此 ， 需 用 一 个 
简化 的 协议 将 复杂 的 过 程 进行 抽象 ， 让 设备 之 间 能 够 有 效 地 进行 通信 。 谷 歌 公司 最 近 推 
出 了 一 个 名 为 Weave 的 开源 协议 。Weave 基本 上 是 一 个 物 联网 协议 ， 即 一 个 物 联网 设备 
的 通信 平台 ， 支 持 设 备 设置 、 手 机 到 设备 到 云 的 通信 以 及 移动 设备 和 网 络 的 用 户 交 互 。 无 
论 是 品牌 方 还 是 制造 商 ，Weave 都 通过 降低 设备 互 操 作 性 ， 提 高 了 开发 人 员 的 工作 效率 。 

(3) 基础 架构 

基础 架构 可 以 简单 地 定义 为 操作 系统 、 通 信 协 议和 所 有 其 他 必要 组 件 的 集成 ， 以 
协调 物 联 网 用 例 的 环境 。 所 有 主要 的 云 基础 架构 提供 商 如 今 都 致力 于 提供 一 个 物 联网 
专业 化 的 环境 。 谷 歌 公司 推出 了 IoT Cloud Solutions 物 联网 云 解决 方案 ， 亚 马 逊 公司 
(Amazon.com, Inc.) 推出 了 AWS IoT， 微 软 推出 了 Azure IoT Suite 等 。 所 有 这 些 解 决 方 
案 都 将 不 同 的 系统 整合 在 一 起 ， 从 而 使 生态 系统 具有 可 扩展 性 和 灵活 性 。 深 入 细 究 这 些 
解决 方案 套件 超出 了 本 书 的 范围 。 

2. 业务 流程 

流程 维度 的 第 二 部 分 是 业务 流程 。 它 基本 上 涵盖 了 管理 物 联网 生态 系统 中 所 连接 设 
备 的 通信 和 操作 的 一 套 规 则 和 流程 。 时 至 今日 还 没有 一 个 具体 的 定义 可 以 用 在 流程 上 ， 
关于 这 个 主题 的 讨论 也 超出 了 本 书 所 涵盖 的 范围 。 但 是 ， 本 书 会 在 第 3 章 “ 探 索性 决策 
科学 在 物 联网 中 的 应 用 内 容 和 原因 ”和 第 4 章 “ 预 测 性 分 析 在 物 联 网 中 的 应 用 ”中 ， 在 
解决 物 联网 用 例 时 ， 和 仔细 研究 这 一 问题 。 


1.3.3 物 


物 成 为 物 联 网 生态 系统 的 不 可 或 缺 的 关键 。 这 些 物 包括 任何 形式 的 传感器 、 执 行 器 
或 其 他 类 型 的 设备 ， 可 以 集成 到 机 器 和 设备 中 ， 以 帮助 它们 连接 到 互联 网 并 与 其 他 设备 
和 机 器 进行 通信 。 这 些 物 在 它们 的 生命 周期 中 一 直 活跃 着 ， 而 且 会 感知 事件 ， 捕 获 重要 
的 信息 并 与 其 他 设备 进行 通信 。 

一 个 典型 的 例子 就 是 前 面 用 例 中 所 提 到 的 冰箱 、 电 视 机 或 微波 炉 。 安 装 在 这 些 设备 
上 的 传感器 能 够 捕获 数据 ， 将 信息 /信号 发 送 到 其 他 设备 用 于 下 一 步行 动 。 
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13.4. 数据 


数据 无 疑 是 物 联 网 生态 系统 中 最 具 增 值 潜力 的 一 个 要 素 。 当 今 ， 连 接 到 互联 网 的 设 
备 抓 取 了 海量 的 数据 ， 这 些 数据 能 够 体现 出 所 连接 设备 最 细 粒 度 层级 的 信息 。 但 是 ， 这 
种 数据 的 规模 非常 巨大 。 存 储 和 处 理 如 此 庞大 而 多 样 的 数据 ， 让 人 们 不 禁 追 问 这 些 数据 
是 否 真 的 具有 价值 。 从 真正 意义 上 而 言 ， 大 部 分 数据 的 生命 本 质 上 都 十 分 短暂 ， 它 们 在 
产生 后 一 时 半 刻 内 价值 就 转瞬 即 逝 。 随 着 技术 和 计算 能 力 的 不 断 提高 ， 设 备 如 今 能 够 处 
理 的 数据 量 和 存储 量 都 无 比 巨 大 ， 而 人 们 可 以 利用 这 种 能 力 来 发 掘 比 原始 数据 更 多 更 好 
的 价值 。 通 过 执行 多 种 算法 以 及 应 用 业务 规则 ， 在 将 数据 发 送 到 服务 器 之 前 ， 从 数据 中 
提取 出 诸多 有 用 的 价值 。 这 就 需要 将 多 个 学 科 结合 起 来 解决 问题 并 创造 价值 。 

为 了 更 透彻 地 理解 这 一 点 ， 现 举 一 个 安装 在 智能 手表 上 的 计 步 器 的 例子 。 它 不 只 是 
报告 人 们 行走 的 步 数 ， 还 能 计算 出 消耗 的 卡路里 ， 活 动 所 需 的 平均 时 间 ， 与 前 些 天 活动 
指标 相差 了 多 少 ， 离 设 定 目标 还 差 多 远 ， 以 及 与 朋友 比较 的 结果 如 何 诸如 此 类 其 他 社交 
信息 等 。 为 了 在 本 地 捕获 和 处 理 所 有 这 些 信 息 ， 将 最 终结 果 发 送 到 可 以 直接 存储 数据 以 
供 将 来 采取 行动 的 服务 器 ， 需 要 将 多 个 学 科 融 会 贯通 才能 有 效 地 完成 这 项 任务 。 数 学 、 
商业 、 技 术 、 设 计 思 维 、 行 为 科学 等 都 需要 结合 在 一 起 来 解决 问题 。 实 际 上 ， 如 果 将 从 
设备 捕获 的 原始 数据 发 送 到 服务 器 ， 就 算 这 些 数据 可 供 将 来 使 用 ， 那 么 这 样 做 还 是 毫 无 
成 效 的 。 如 今 人 们 设计 出 了 各 式 各 样 的 新 算法 ， 用 于 分 析 这 些 本 地 输入 的 数据 ， 实 时 提 
供 丰富 、 精 炼 和 可 付 诸 行动 的 洞 见 。 本 书 将 在 第 8 章 “ 物 联网 颠覆 性 创新 ”中 更 详细 地 
探讨 雾 计算 。 智 能 手表 (如 Microsoft Band) 和 自动 驾驶 汽车 〈 如 Tesla Model S) 是 理解 
真实 场景 的 最 佳 示例 ， 人 们 可 以 在 这 些 场景 中 挑战 实时 研究 处 理 数 据 ， 从 中 获得 真知 灼 
见 并 采取 行动 。 从 真正 意义 上 而 言 ， 数 据 实质 上 是 一 种 为 物 联网 这 些 产 业 解 决 最 后 一 英 
价值 传递 的 东西 。 因 此 ， 将 数据 处 理 当 作物 联网 堆栈 中 单独 的 一 个 维度 来 看 待 。 


14 问题 的 生命 周期 


至 此 对 物 联网 已 略 有 体会 ， 也 理解 了 物 联网 的 逻辑 堆栈 : 人 人、 流程、 数据 和 物 。 本 
书 的 核心 内 容 是 应 用 决策 科学 解决 物 联 网 商业 问题 。 自 从 人 类 进化 以 来 ， 解 决 问题 一 直 
是 一 门 技 术 。 本 小 节 将 曾 述 问题 的 生命 周期 ， 了 解 问题 是 如 何不 断 演 变 的 。 透 彻 理解 这 
个 主题 对 于 解决 物 联网 更 复杂 的 问题 至 关 重 要 。 

每 个 行业 都 在 试图 解决 问题 。 电 子 零售 解决 了 工作 繁忙 的 消费 者 去 实地 购物 的 麻烦 ， 
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印刷 机 解决 了 消费 者 需要 印 制 大 量 文 件 的 问题 等 。 一 些 深 怀远 见 卓 识 的 企业 ， 如 苹果 公 
司 ， 先 由 自己 创造 出 问题 然后 再 去 解决 问题 。iPod 和 iPad 毫 无 疑问 是 这 场 革命 的 见证 。 
解决 问题 最 大 的 挑战 在 于 问题 的 演变 。 倘 若 深 入 研究 问题 的 生命 周期 ， 则 能 够 理解 问题 
起 初 从 一 团 乱 麻 ， 再 到 混沌 不 清 ， 最 后 演进 至 清晰 明朗 的 状态 ， 如 此 周而复始 ， 如 图 1.4 
所 示 。 


问题 的 生命 周期 


— 混沌 不 清 — 清晰 明朗 


图 1.4 


下 面 举 个 简单 例子 以 更 清楚 地 理解 这 一 点 。 比 如 市 场 营销 问题 。 每 家 企业 都 希望 通 
过 市 场 营销 来 更 好 地 推销 他 们 的 产品 和 服务 。 自 古 以 来 ， 市 场 营 销 一 直 是 一 个 问题 。 假 
设 印刷 机 发 明 后 ， 市 场 营销 也 随 之 开始 了 。 最 初 ， 营 销 问题 处 于 一 团 乱 麻 的 阶段 ， 这 时 
分 析 师 团队 试图 找到 最 佳 策略 以 助 推销 产品 或 服务 。 当 时 ， 报 纸 和 平面 媒体 是 唯一 的 宣 
传媒 介 ， 问 题 的 策略 和 性 质 都 受 限于 这 两 者 。 当 一 个 问题 属于 全 新 的 问题 时 ， 这 个 问题 
即 处 于 一 团 乱 麻 的 阶段 ， 人 们 对 如 何 解决 这 个 问题 毫 无 头绪 。 于 是 尝试 通过 实验 和 研究 
来 了 解 该 问题 。 逐 渐 地 ， 获 得 一 些 关 于 系统 和 问题 的 知识 ， 接 着 又 确定 出 一 些 卓越 的 策 
略 和 方针 来 解决 这 个 问题 。 此 时 ， 问 题 发 展 到 了 混沌 不 清 的 阶段 。 在 这 个 阶段 ， 依 然 不 
清楚 问题 的 解决 方法 ， 但 对 如 何 去 解 决 问题 取得 了 较 好 的 理解 。 最 后 ， 许 多 人 经 过 大 量 
的 研究 和 实验 ， 并 且 分 享 了 他 们 取得 的 结果 和 理解 ， 最 终 可 能 会 获得 一 个 具体 的 方法 ， 
以 此 作为 一 个 完整 的 指南 去 解决 这 个 问题 。 此 时 ， 问 题 就 进入 了 清晰 明朗 的 阶段 。 也 就 
到 达 了 问题 解决 方法 的 顶峰， 人 们 对 如 何 去 解 决 问题 获得 了 比较 清晰 的 认识 。 然 而 ， 好 
景 不 长 ， 在 此 期 间 一 种 颠覆 性 创新 突然 冒 出 来 了 ， 让 好 不 容易 到 达 清 晰 明朗 状态 的 问题 
土 肝 瓦解 ， 重 返 一 团 乱 麻 的 阶段 。 在 市 场 营销 的 例子 中 ， 人 们 当时 采用 的 平面 媒体 和 报 
纸 宣 传 属于 营销 的 最 佳 策略 ， 但 是 当 广 播 出 现 后 却 变 得 溃不成军 。 一 夜 之 间 ， 问 题 的 性 
质 发 生 了 变化 ， 需 要 采取 截然 不 同 的 方法 来 解决 问题 。 之 前 专家 们 虽然 找到 了 解决 问题 
的 具体 方法 和 策略 ， 可 是 当 问 题 重 回 到 一 团 乱 麻 的 阶段 时 ， 他 们 不 得 不 从 头 开始 寻求 问 
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题 的 解决 之 道 。 问 题 的 生命 周期 仍然 不 断 地 演变 ， 当 电视 蜂拥 进入 市 场 ， 以 及 后 来 社交 
媒体 遍地 开花 之 时 ， 这 种 情况 又 故 态 重 现 。 今 日 ， 随 着 社交 媒体 的 蓬勃 兴起 以 及 在 新 领 
域 的 锐意 开拓 ， 市 场 营销 问题 虽 身 陷 混沌 不 清 的 状态 中 ， 但 目前 尚 属 稳定 。 不 过 随 着 虚 
拟 现实 和 增强 现实 的 不 断 涌现 ， 预 计 很 快 又 将 重 返 到 一 团 乱 麻 的 阶段 。 

为 了 显得 更 真实 ， 接 下 来 把 这 个 场景 与 目前 最 新 的 问题 结合 起 来 。 比 如 一 位 社交 媒 
体 分 析 师 试 着 解决 以 下 问题 : 根据 一 个 用 户 的 行为 ， 优 化 Facebook 新 闻 馈送 中 赞助 广告 
的 投放 目标 。 如 果 发 现 这 个 用 户 是 一 个 足球 爱好 者 ， 则 会 在 他 订阅 的 新 闻 中 植 入 一 个 运 
动 服饰 品牌 的 广告 。 为 简单 起 见 ， 假 设 他 是 第 一 个 这 样 做 的 人 ， 而 且 以 往 未 曾 有 人 尝试 
过 这 种 做 法 。 那 么 ， 问 题目 前 尚 处 于 一 团 乱 麻 的 状态 。 因 此 ， 从 逻辑 上 讲 ， 互 联网 上 没 
有 任何 参考 资料 或 材料 能 够 帮助 或 有 助 于 研究 。 解 决 问题 的 首要 任务 是 识别 用 户 的 兴趣 
爱好 。 一 旦 用 户 被 确定 为 对 足球 感 兴趣 的 潜在 用 户 ， 需 要 在 他 订阅 的 新 闻 中 植 入 赞助 广 
告 。 那 么 ， 如 何 发 现 用 户 的 兴趣 ? 虽然 有 各 种 各 样 的 指标 可 以 帮助 发 现 用 户 的 兴趣 爱好 ， 
但 是 为 了 一 切 从 简 ， 假 设 用 户 的 兴趣 爱好 完全 由 他 在 个 人 页 面 发 布 的 状态 更 新 来 确定 。 

那么 ， 通 过 简单 地 分 析 这 个 用 户 更 新 的 状态 ， 可 以 界定 他 的 兴趣 爱好 。 如 果 “ 足 球 ” 
这 个 词 或 任何 热门 足球 运动 员 或 足球 队 的 名 字 出 现 次 数 超过 了 预 设 阔 值 ， 则 认为 此 用 户 
对 足球 情 有 独 钟 ， 因 此 他 会 是 潜在 的 广告 投放 目标 。 基 于 这 个 简单 的 规则 ， 创 建 出 更 优 
的 策略 和 算法 ， 在 最 短 的 时 间 内 以 最 少 的 精力 找到 潜在 用 户 ， 极 大 地 提高 了 准确 性 。 问 
题 也 逐渐 从 一 团 乱 麻 的 阶段 向 混沌 不 清 的 阶段 发 展 。 此 时 对 这 个 问题 也 取得 了 一 定 的 认 
识 。 尽 管 还 没 能 找到 最 好 、 最 有 效 的 解决 方案 ， 但 无 须 做 太 多 研究 ， 也 绝对 形成 了 一 个 
不 错 的 想法 ， 可 以 就 此 开始 并 找到 一 个 解决 方案 。 一 段 时 间 以 来 ， 我 们 和 其 他 抱 有 类 似 
想法 的 人 进行 着 各 种 实验 ， 发 表 各 种 博客 和 研究 论文 的 结果 ， 帮 助 他 人 从 我 们 的 方法 和 
实验 中 学 习 到 更 多 。 终 有 一 天 ， 人 们 会 试 尽 全 面 的 解决 方案 方法 ， 发 现 最 好 和 最 有 效 的 解 
决 方案 , 以 对 所 研究 的 领域 进行 分 析 , 这 一 刻 终究 会 到 来 的 。 最 后 , 问题 到 达 了 顶峰 一 一 即 
清晰 明朗 的 阶段 。 

假若 有 一 天 ，Facebook 和 其 他 社交 媒体 巨头 狸 不 及 防 地 发 布 了 一 个 新 功能 。 用 户 可 
以 共享 照片 以 及 他 们 的 状态 更 新 。 那 么 ， 用 户 使 用 社交 网 络 的 方式 将 会 发 生根 本 性 的 变 
化 。 人 们 往往 发 布 更 多 的 照片 而 非 文 字 更 新 。 所 有 曾 被 认为 十 分 成 功 的 思想 领导 力 框架 、 
研究 论文 和 博客 ， 此 时 似乎 都 变 得 毫 无 成 效 。 我 们 不 知道 如 何 分 析 用 户 更 新 的 照片 ， 了 
解 他 们 的 兴趣 爱好 。 更 为 糟糕 的 是 ， 这 个 问题 又 回 到 了 一 团 乱 麻 的 阶段 。 这 些 重大 变化 
再 发 生 。 照 片 之 后 ， 可 能 会 是 视频 ， 然 后 是 音频 等 ， 这 种 情况 会 循环 往复 地 出 现 。 最 
近 ， 社 交 网 络 上 的 用 户 行为 发 生 了 巨大 变化 。 人 们 发 布 的 照片 比 输入 任何 评论 或 状态 更 
新 要 多 得 多 。 这 些 照片 可 能 是 也 可 能 不 是 用 户 想 要 传达 的 信息 的 象征 ， 冷 嘲 热 讽 或 许 才 
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是 目的 。 在 互联 网 上 病毒 传播 的 模 因 (meme) 并 没有 明确 的 信息 嵌入 其 中 。 它 可 能 只 是 
户 想 要 评论 的 讽刺 或 简单 的 表情 。 而 希望 借助 算法 和 计算 机 ， 分 析 这 些 图 像 的 含义 ， 
理解 用 户 传达 的 信息 ， 了 解 他 们 的 兴趣 爱好 ， 这 无 疑 是 一 项 颇具 挑战 性 的 任务 。 

因此 ， 了 解 问题 的 生命 周期 有 助 于 为 问题 的 演变 做 好 充分 准备 ， 以 期 更 快 更 好 地 调 
整 问题 解决 策略 。 


St: 
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此 刻 肯定 会 有 以 下 两 个 问题 一 直 蒙 绕 在 脑海 中 挥 之 不 去 。 

口 ” 为 什么 认识 问题 的 生命 周期 至 关 重 要 ? 

口 这 如 何 为 解决 物 联网 问题 增加 价值 ? 

在 解决 问题 的 同时 ， 了 解 问题 的 当前 状态 对 分 析 师 而 言 格外 重要 。 在 解决 问题 时 ， 
因为 数据 科学 家 知道 处 于 当前 状态 的 问题 发 生变 化 是 不 可 避免 的 ， 因 而 总 会 为 问题 生命 
周期 的 下 一 个 状态 做 好 准备 。 如 果 问 题目 前 处 于 清晰 明朗 的 状态 ， 那 么 与 问题 处 在 一 团 
乱 麻 或 混沌 不 清 阶 段 时 相 比 ， 数 据 科学 家 投入 的 时 间 和 精力 将 大 大 降低 。 在 清晰 明朗 的 
阶段 ， 问 题 所 需 的 时 间 也 是 最 少 的 。 与 问题 生命 周期 中 从 任何 一 个 阶段 向 下 一 个 阶段 的 
转换 相 比 ， 从 清晰 明朗 阶段 到 一 团 乱 麻 的 转变 时 间 更 加 短 。 在 认识 到 问题 的 生命 周期 规 
律 后， 一 家 企业 /数据 科学 家 就 会 准备 好 应 对 短期 内 必然 会 发 生 的 根本 性 变化 。 需 要 制定 
出 一 些 灵活 适用 的 解决 方案 ， 为 问题 的 下 一 次 变化 做 好 准备 。 同 样 ， 如 果 问 题 出 现在 混 
沌 不 清 的 阶段 ， 要 将 许多 解决 方案 设计 成 针对 特定 用 例 或 行业 可 以 实施 的 方案 。 最 后 ， 
当 解 决 方案 处 于 一 团 乱 麻 状态 时 ， 解 决 问题 的 方案 将 更 多 的 是 一 种 基于 服务 的 方案 而 不 
是 基于 产品 的 。 这 时 要 将 待 解决 问题 的 实验 和 研究 的 量 ， 在 一 团 乱 麻 状态 下 达到 最 高 ， 
而 在 清晰 明朗 状态 下 则 为 最 少 ， 如 图 1.5 所 示 。 

那么 ， 这 与 物 联网 和 决策 科学 以 及 这 两 个 学 科 的 交叉 有 什么 关系 呢 ? 与 物 联网 相 比 ， 
决策 科学 在 产业 中 更 加 普遍 也 更 加 流行 。 决 策 科学 对 数据 进行 了 大 量 的 实验 和 研究 ， 从 
中 挖掘 真知 灼 见 并 增加 数据 的 价值 ， 这 让 决策 科学 目前 处 于 混沌 不 清 的 阶段 。 另 一 方面 ， 
物 联网 属于 一 种 新 兴 事物 ， 仍 需 大 量 的 研究 和 实验 才能 取得 实质 性 成 果 ， 因 此 物 联网 沿 
处 在 一 团 乱 麻 的 阶段 。 但 是 ， 当 人 们 谈论 这 两 者 的 交叉 点 时 ， 是 在 处 理 一 系列 有 趣 的 问 
题 。 一 方面 ， 现 在 一 个 相当 成 熟 的 决策 科学 的 生态 系统 早已 存在 ， 通 过 实验 给 行业 带 来 
了 实 实在 在 的 价值 ， 而 物 联 网 还 未 脱离 初始 阶段 。 这 两 者 的 交叉 部 分 是 一 个 前 景 十 分 光 
明 且 利润 极为 丰厚 的 商业 领域 。 另 一 方面 ， 目 前 这 个 交叉 点 正 处 于 一 个 从 一 团 乱 麻 到 混 
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沌 不 清 的 阶段 。 不 入， 人 们 将 亲眼 目睹 产业 内 大 规模 物 联 网 用 例 的 实质 性 结果 发 布 ， 而 
这 也 将 瞬间 引发 “ 物 联网 决策 科学 ”产品 化 革命 。 而 今 对 物 联 网 决策 科学 所 进行 的 实验 
迅猛 增长 ， 目 前 所 取得 的 初始 结果 似乎 前 景 无 量 。 物 联网 决策 科学 正 趋向 混沌 不 清 的 状 
态 发 展 ， 这 一 天 为 期 不 远 了 。 


问题 生命 周期 简 图 


基于 服务 的 解决 方案 基于 产品 的 解决 方案 a iaki 
概念 化 ] 皮 书 


研究 /实验 


清晰 明朗 


颠覆 性 创新 


图 1.5 


铭记 这 一 点 ， 接 着 学 习 解决 问题 的 基础 知识 ， 同 时 为 用 例 演变 为 混沌 不 清 的 状态 时 
刻 准 备 着 。 具 体 理解 问题 生命 周期 后 ， 下 面 来 详细 探究 问题 的 全 貌 。 

那么 ， 问 题 的 全 貌 指 的 是 什么 ? 为 什么 要 费力 劳 神 去 了 解 它 呢 ? 

最 简单 的 一 个 答案 是 ， 理 解 问题 的 当前 状态 只 是 一 个 维度 ， 但 了 解 问题 的 类 型 是 解 
决 问题 的 一 个 更 为 重要 的 部 分 。 下 面 对 这 个 部 分 避 繁 就 简 地 进行 介绍 。 如 果 要 了 解 问题 
的 全 貌 ， 请 参阅 下 面 的 图 示 ， 试 着 从 频率 和 影响 这 两 个 维度 上 看 问题 。 就 像 其 他 散 点 图 
一 样 ， 这 个 图 也 可 以 分 为 4 个 主要 区 域 。 

口 ” 低 影响 :低频 率 。 
口 ” 低 影响 :高 频率 。 
口 高 影响 :低频 率 。 
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口 ”高 影响 ， 高 频率 。 

除了 这 4 个 部 分 ， 还 可 以 识别 出 一 个 包含 了 所 有 这 些 区 域 其 中 一 部 分 的 大 圆 /大 圈 。 
在 此 圆圈 内 ， 问 题 可 属于 高 频率 或 低频 率 ， 也 可 具有 高 影响 或 低 影响 。 因 此 ， 把 这 个 区 
域 命名 为 不 确定 性 区 域 ， 如 图 1.6 所 示 。 


问题 的 全 貌 不 确定 性 区 域 


- 


desk 


更 
趋 
向 
算 
法 


高 影响 
低频 率 


影响 
更 趋向 启发 法 


图 1.6 


现在 继续 了 解 在 上 述 区 域 中 突显 了 什么 样 的 问题 。 每 家 企业 都 会 遇 到 许 许多 多 的 问 
题 。 其 中 一 些 问 题 格外 频繁 ， 隔 三 岔 五 就 发 生 ， 而 另 一 些 问题 则 十 分 罕见 ， 鲜 有 发 生 。 
有 些 问题 可 能 会 产生 巨大 的 影响 ， 而 有 些 可 能 只 显现 细微 的 影响 。 比 如 一 家 拥有 数 百 到 
数 千 名 员工 的 大 型 企业 ， 有 一 些 问 题 发 生 频 率 可 能 很 低 ， 影 响 也 可 能 较 低 。 此 时 通常 会 
对 这 些 问题 避 而 不 解 ， 因 为 这 些 问题 不 值得 去 解决 。 但 是 一 些 问题 虽然 可 能 影响 不 大 ， 
但 发 生 的 频率 很 高 。 而 且 大 多 会 天 天 发 生 且 接连 不 断 。 此 类 问题 可 以 采取 典型 的 IT 解决 
方案 解决 ， 如 支持 技术 基础 架构 、 客 户 关 系 管理 、 考 勤 管理 、 员 工 离职 应 用 门户 等 。 还 
有 一 些 问题 ， 影 响 特 别 巨大 ， 但 是 发 生 频 率 却 非常 低 。 诸 如 公司 上 市 、 收 购 新 公司 、 改 
变 商 业 模 式 等 事件 可 能 会 在 一 生 中 只 发 生 一 次 或 者 几 年 内 才 会 发 生 一 次 。 这 些 问题 可 以 通 
过 咨询 方式 解决 。 除 此 以 外 ， 另 有 一 类 问题 的 影响 重大 且 频 繁 出 现 ， 比 如 亚马逊 公司 的 定 
价 模式 、Google 的 页 面 排 名 算法 、 搜 索引 擎 优化 等 。 这 些 问 题 同样 应 采用 一 个 迎 然 不 同 的 
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方法 来 解决 。 此 时 ， 则 需 选 用 一 种 能 将 启发 法 和 算法 与 产品 融 汇 结合 在 一 起 的 方法 。 

除了 这 4 类 显而易见 的 问题 之 外 ， 还 会 遇 到 一 系列 特殊 的 与 4 类 问题 都 有 交集 的 问 
题 ， 这 些 问题 属于 适度 问题 。 在 这 里 ， 问 题 发 生 的 影响 和 频率 为 适度 的 。 解 决 这 些 问题 
要 选用 一 种 特殊 的 方法 。 这 种 方法 既 不 是 基于 启发 法 的 ， 也 不 是 完全 算法 的 。 对 于 企业 
来 说 ， 研 究 这 些 问题 格外 关键 ， 因 为 很 早 就 可 以 对 实际 结果 进行 实验 和 验证 ， 而 且 许多 
公司 把 目标 定位 于 概念 化 ， 针 对 问题 全 貌 中 的 具体 领域 进行 处 理 ， 如 图 1.7 所 示 。 


问题 的 全 貌 


描述 性 /。 探查 性 
不 确定 性 区 域 
—À ac 规范 性 


图 1.7 


在 深入 了 解 不 确定 性 区 域 这 个 关键 之 处 时 ， 发 现 这 些 问题 各 自 的 性 质 依然 是 截然 不 
同 的 。 这 些 问题 可 归属 于 以 下 任何 一 个 阶段 内 。 

D “描述 性 : 发 生 了 什么 ? 
D ”探查 性 ， 如何 发 生 以 及 为 何 发 生 ? 
Q ”预测 性 ， 何 时 会 发 生 ? 
Q “规范 性 : 那么 会 发 生 什 么 /现在 该 做 什么 ? 

为 了 理解 问题 的 性 质 ， 基 本 上 要 尝试 通过 提问 去 获得 问题 解决 的 答案 。 这 些 提 问 可 
以 指 “ 是 什么 ” “如何 做 ”“ 何 时 ”“ 为 什么 ”等 。 下 面 用 一 个 简单 的 例子 来 更 好 地 理 
解 这 一 点 。 
比如 由 沃尔玛 等 零售 巨头 发 起 的 会 员 制 活动 ， 客 户 每 次 交易 时 都 使 用 超市 会 员 卡 赚 
取 和 消费 现金 积分 。 为 了 简单 起 见 ， 假 设 这 个 会 员 制 活动 持续 了 3 个 月 左右 ， 会 员 制 活 
动 的 主管 想 知道 几 个 问题 的 答案 。 

也 会 首先 想 知 道 发 生 了 什么 ? 
这 意味 着 要 清楚 有 多 少 人 注册 了 会 员 ， 记 录 了 多 少 交 易 ， 销 售 了 多 少 产 品 ， 会 员 赚 
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取 或 消费 了 多 少 积分 ， 在 这 期 间 获得 了 多 少 利润 ， 产 生 了 多 少 收入 等 。 基 本 上 要 对 在 此 
期 间 发 生 的 所 有 事情 均 了 如 指 掌 。 

此 时 , 正在 尝试 解决 的 问题 性 质 属 于 描述 性 的 。 通 过 询问 一 个 问题 即 “ 发 生 了 什么 ”， 
则 可 轻松 获得 整个 解决 方案 。 

在 那 位 主管 对 所 发 生 的 事情 了 解 清楚 后 ， 他 还 会 继续 刨 根 问 底 一 为 什么 这 些 现象 
只 在 一 些 场景 中 发 生 。 例 如 ， 该 主管 会 注意 到 ， 某 个 特定 地 理 位 置 如 得 克 萨 斯 州 尽管 也 
开展 了 会 员 制 活动 ， 但 销售 额 并 没有 如 愿 增加 ， 所 以 他 希望 对 为 什么 会 发 生 这 种 情况 进 
行 追根 求 源 。 在 这 里 ， 解 决 问题 的 重点 是 ， 了 解 在 其 他 地 区 销售 业绩 表现 出 色 的 情况 下 ， 
得 州 地 区 销售 额 却 没有 增加 的 原因 。 下 面 ， 将 通过 深入 研究 这 个 问题 来 理解 “为 什么 ” 
的 问题 。 可 以 将 得 州 与 其 他 地 区 相 比 ， 研 究 得 州 的 优惠 价 ， 或 者 分 析 他 们 之 间 的 目标 客 
户 和 市 场 营销 活动 的 不 同 之 处 等 。 

这 时 问题 的 性 质 则 归 在 探查 性 阶段 内 。 仅 提出 一 个 问题 即 “ 为 什么 发 生 ”， 整 个 解 
决 方案 就 唾 手 可 得 。 

在 查 清 事件 发 生 的 原因 后 ， 可 能 会 打算 采取 预防 措施 ， 以 避免 由 于 已 被 发 现 的 原因 
而 造成 不 利 影响 。 比 如 说 ， 发 现 因为 糟糕 的 服务 ， 很 多 客户 涌 向 了 其 他 竞争 对 手 。 于 是 ， 
将 努力 去 了 解 客 户 流失 的 倾向 ， 以 便 预测 何 时 客户 可 能 会 流失 ， 从 而 采取 预防 措施 来 维 
持 客户 满意 度 。 
至 此 ， 问 题 的 性 质 发 展 到 了 预测 性 阶段 。 只 需 询 问 一 个 问题 即 “ 事 件 何 时 会 发 生 ”， 
整个 解决 方案 就 如 圳 中 取 物 。 

最 后 ， 一 旦 全 面 了 解 了 发 生 的 一 系列 事件 ， 以 及 这 些 事件 为 什么 发 生 、 如 何 发 生 ， 
就 会 希望 采取 纠正 措施 来 减轻 事件 的 危害 性 。 那 么 ， 此 时 不 禁 会 问 那么 会 发 生 什么 /现在 


这 时 问题 的 性 质 为 规范 性 的 。 可 借助 一 个 问题 即 “ 那 么 会 发 生 什 么 /现在 该 做 什么 ”， 
来 充分 理解 整个 解决 方案 。 

为 了 从 物 联 网 的 角度 更 好 地 理解 问题 的 性 质 ， 举 一 个 石油 和 天 然 气 行业 的 例子 。 比 
方 说 壳牌 公司 〈 一 家 领先 的 石油 公司 ) ， 在 他 们 的 黄金 作业 区 域 之 一 建立 了 海底 作业 。 
接着 他 们 会 部 署 大 量 机 器 进行 作业 ， 从 海底 储备 中 开采 石油 。 在 物 联 网 生态 系统 中 ， 这 
里 所 用 到 的 全 部 机 器 或 资产 形成 一 个 连接 的 网 络 ， 这 些 机 器 也 配备 有 各 种 传感器 ， 可 以 
捕获 有 关 各 种 实时 参数 的 信息 ， 并 且 与 其 他 机 器 和 中 央 服 务 器 进行 通信 。 假 设 您 是 开采 
部 门 的 运营 主管 ， 您 不 仅 要 保证 开采 作业 顺利 进行 而 且 还 要 能 够 有 效 开 展 。 当 一 天 结束 
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时 ， 作 为 一 名 肩负 着 开采 作业 重任 的 主管 ， 自 然 会 希望 对 这 一 天 的 采油 环节 中 发 生 的 任 
何事 情 都 一 清二 楚 。 于 是 ， 这 种 情况 就 已 回答 了 “发 生 了 什么 ”这 个 问题 。 主 要 是 要 查 
明 开采 了 多 少 油 ， 机 器 运行 了 多 少 小 时 ， 以 及 人 工 工时 和 机 器 工时 所 用 时 间 。 这 就 是 基 
本 分 析 ， 其 中 问题 的 性 质 是 描述 性 的 。 在 分 析 过 程 中 ， 您 发 现 了 当日 采油 总 量 与 采油 阔 
值 基准 和 目标 相 比 仍 相差 甚 远 。 那 么 就 想 对 到 底 发 生 了 什么 ， 生 产 为 什么 减少 ， 减 少 的 
原因 是 什么 这 些 问 题 一 探究 竟 。 因 此 ， 就 会 试 着 深入 研究 这 个 问题 ， 查 清 是 否 存 在 劳动 
力 问 题 ， 是 否 有 任何 机 械 /设备 停机 ， 或 者 是 否 有 任何 机 器 运行 状态 不 佳 。 此 时 ， 问 题 的 
性 质 属于 探查 性 的 ， 需 要 尝试 去 回答 “为 什么 事件 会 发 生 ” 的 问题 。 同 样 ， 当 发 现 问 题 
的 根本 原因 在 于 部 署 在 现场 的 钻机 故障 导致 了 设备 停机 时 ， 就 希望 知道 这 些 设备 资产 将 
来 何 时 会 发 生 故障 的 可 能 性 ， 以 便 能 够 提前 做 好 维护 准备 并 减少 设备 停机 时 间 。 故 此 ， 
可 以 建立 一 个 统计 模型 ， 根 据 传感器 实时 捕获 的 数据 预测 设备 资产 的 故障 ， 从 而 实现 对 
设备 资产 的 预测 性 维护 ， 减 少 停机 时 间 。 这 是 一 个 经 典 的 预测 问题 。 最 后 ， 如 果 故 障 是 
灾难 性 的 ， 您 则 十 分 明白 需要 制订 一 个 纠正 行动 计划 ， 最 大 限度 地 减少 影响 。 这 时 您 会 
妥善 安排 好 后 勤 工 作 ， 对 现场 部 署 的 设备 资产 进行 定期 维护 和 运行 状态 维护 。 此 处 问题 
的 性 质 属于 规范 性 的 。 

简 而 言 之 ， 本 节 不 仅 探 索 了 问题 的 全 貌 ， 还 研究 了 问题 的 各 个 方面 。 与 此 同时 ， 探 
讨 了 问题 在 其 生命 周期 的 不 同 阶段 是 如 何 产 生 的 ， 如 何 根据 问题 来 确定 它 是 属于 高 或 低 
影响 及 高 或 低频 率 的 类 型 。 而 且 对 问题 的 性 质 进行 综合 归 类 ， 其 性 质 可 以 是 描述 性 的 、 
探查 性 的 、 预 测 性 的 或 规范 性 的 。 在 领会 了 如 何 界定 问题 之 后 ， 下 面 继续 讨论 另外 一 个 
重要 的 话题 了解 如 何 去 解 决 问题 。 


1.6 解决 问题 的 技术 


现在 ， 已 经 具体 领略 到 了 如 何 对 问题 进行 界定 的 要 义 ， 接 下 来 试 着 去 探寻 解决 问题 
的 方法 。 可 能 有 一 个 问题 恰好 处 在 其 生命 周期 任何 阶段 ， 例 如 混沌 不 清 的 阶段 ， 这 个 阶 
段 中 问题 产生 的 影响 可 能 很 大 ， 并 具有 适度 的 高 频率 ， 而 且 问题 的 性 质 可 能 是 预测 性 的 。 
如 果 试 图 从 最 初 的 情景 中 去 理解 这 个 问题 ， 那 么 这 个 问题 就 真 的 很 复杂 。 为 了 让 这 个 例 
子 更 加 有 具体， 假设 一 家 可 再 生 能 源 〈 太 阳 能 ) 供应 商 ， 将 他 们 其 中 一 家 工厂 建 在 一 个 完 
全 离 网 地 区 ， 为 一 所 很 大 的 大 学 校园 提供 日 常 运行 的 电能 。 他 们 亟 须 解 决 的 问题 是 ， 根 
据 天 气 和 历史 运行 参数 预测 产生 的 太阳 能 电量 。 由 于 这 些 运行 是 完全 离 网 的 ， 这 所 大 学 的 
管理 者 渴望 查 明 未 来 几 天 将 会 产生 多 少 电量 ， 以 便 在 低 发 电量 和 高 消耗 的 情况 下 采取 必要 
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的 预防 措施 。 这 是 一 个 典型 的 具有 高 影响 和 适度 高 频率 的 预测 性 问题 ， 这 个 问题 仍 处 于 
混沌 不 清 的 状态 。 虽 然 知道 有 些 事情 势必 解决 ， 但 是 此 时 还 没有 找到 清晰 的 解决 方案 。 

那么 ， 应 该 如 何 解决 这 个 问题 ? 从 技能 或 学 科 的 角度 开始 着 手 解决 这 个 问题 需要 做 
些 什么 ?决策 科学 在 更 高 层次 上 将 多 个 学 科 结 合 在 一 起 来 解决 问题 。 决 策 科 学 通常 将 数 
学 、 商 业 和 技术 融 汇 结合 起 来 设计 和 执行 初始 解决 方案 ， 再 将 设计 思维 、 行 为 科学 和 其 
他 学 科 综 合作 用 于 解决 方案 。 随 后 来 细 细 体会 这 样 做 的 必要 性 及 其 原因 。 


1.6.1 BFE 


解决 预测 太阳 能 发 电 的 问题 最 初 要 用 到 数学 技能 ， 故 而 应 用 各 种 统计 算法 和 机 器 学 
习 算 法 以 使 预测 变 得 更 准确 。 与 此 同时 ， 也 需 使 用 技术 技能 ， 在 数据 存储 的 基础 架构 上 ， 
选用 一 种 或 多 种 计算 机 语言 编程 。 技 术 技能 可 帮助 从 各 种 内 部 数据 源 和 外 部 数据 源 中 提 
取 数 据 ， 并 对 数据 进行 清洗 、 转 换 和 修改 ， 以 变 成 易于 执行 分 析 的 格式 。 最 后 ， 还 要 掌 
握 业 务 技能 ， 对 大 学 一 天 的 运行 情况 ， 即 哪 种 运行 是 耗 能 最 多 的 ， 预 测 的 结果 如 何 才能 
为 大 学 的 运行 增值 ， 以 及 他 们 如 何 计划 采 取 预 防 措施 以 求生 存 。 这 时 只 需 略 微 思考 典型 
的 零售 行业 问题 ， 即 从 储 货 量 上 来 预测 销售 ， 就 能 明白 业务 技能 在 此 处 是 大 有 作为 的 。 
此 外 ， 也 需 考虑 到 ， 从 商业 角度 来 看 有 一 些 特征 和 维度 无 比重 要 ， 但 在 统计 学 上 却 可 能 
不 值 一 提 。 例 如 ， 在 分 析 过 程 中 ， 对 客户 价值 的 《高 /中 / 低 ) 分 类 在 数学 上 可 能 显得 微 不 
足 道 ， 但 它 可 能 是 业务 上 最 关键 的 变量 之 一 ， 提 醒 人 们 要 去 考虑 问题 而 不 是 忽视 问题 。 

另外 ， 若 要 在 问题 解决 阶段 获得 更 多 深入 的 细节 ， 还 需 借助 工程 学 和 其 他 学 科 的 技 
能 。 在 前 面 的 例子 中 ， 要 求 预测 将 来 的 发 电量 。 因 此 ， 如 果 拥 有 扎实 的 物理 和 工程 背景 ， 
将 有 助 于 理解 光伏 电池 的 功能 和 太阳 能 电池 板 的 架构 及 其 工程 ， 在 将 核心 目标 定 在 改进 
解决 方案 时 ， 这 些 知 识 背景 会 对 解决 问题 大 有 神 益 。 

同样 ， 在 其 他 一 些 用 例 中 ， 需 要 更 深入 地 钻研 行为 科学 和 设计 思维 的 学 科 ， 以 研究 
特定 场景 中 的 用 户 行为 及 其 在 商业 环境 中 的 含义 。 因 此 ， 不 管 解决 哪 一 种 问题 ， 都 要 抱 
着 勤学 好 问 精 于 思考 的 态度 ， 采 用 跨 学 科 的 方法 。 在 物 联网 的 许多 用 例 中 ， 使 用 传感器 
捕获 的 数据 粒度 完全 不 同 。 这 个 庞大 而 丰富 的 数据 集 现 在 给 人 们 提供 了 机 会 ， 使 人 们 能 
够 在 越 来 越 细 粒 度 的 层级 上 处 理 一 些 用 例 。 在 讨论 本 用 例 时 ， 可 以 抽象 地 探讨 增加 一 个 
油气 精炼 设备 的 产品 /资产 寿命 ， 或 者 琢磨 减少 柴油 机 齿轮 振动 等 细微 事物 。 


1.6.2 ”问题 的 体系 


深刻 地 认识 到 一 些 必 备 技能 对 解决 商业 问题 的 重要 性 之 后 ， 下 面 紧 接着 去 探究 如 何 
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解决 问题 。 一 般 而 言 ， 人 们 从 一 个 问题 获得 的 最 初 印象 是 问题 的 复杂 性 。 然 而 ， 并 不 是 
所 有 的 问题 都 是 纷繁 复杂 的 。 当 问题 被 分 解 为 较 小 的 问题 时 ， 问 题 的 简单 性 就 体现 出 来 
了 ， 接 着 再 研究 这 些小 问题 是 如 何 相互 关联 的 。 如 果 一 次 只 考虑 一 个 小 问题 而 不 是 整个 
大 问题 时 ， 解 决 方案 设计 就 会 变 得 比较 容易 。 

比方 说 ， 上 述 用 例 要 解决 零售 客户 销售 增加 的 问题 。 在 本 例 中 ， 增 加 销售 额 是 一 个 
较 大 的 问题 ， 可 以 将 它 分 解 成 更 微小 、 更 集中 的 一 个 个 小 问题 ， 随 后 一 次 只 处 理 一 个 小 
问题 。 增 加 客户 销售 额 可 以 由 较 小 的 问题 组 成 ， 如 改进 营销 活动 ， 优 化 营销 渠道 ， 改 善 
客户 体验 ， 设 计 客 户 保留 计划 ， 优 化 供应 链 模型 等 。 较 大 的 问题 总 是 能 够 分 解 成 既 微小 
又 集中 的 数 个 问题 。 同 样 ， 当 解决 一 个 问题 时 ， 理 解 这 些 问 题 如 何 与 其 体系 中 的 其 他 问 
题 联系 起 来 也 格外 地 重要 。 当 前 问题 的 解决 可 能 会 对 另 一 个 问题 产生 直接 的 影响 ， 或 者 
解决 这 个 问题 也 需要 解决 男 一 个 关联 的 问题 。 在 这 里 ， 谈 论 的 是 解决 问题 的 技术 ， 而 不 
是 解决 具体 的 问题 。 每 一 个 问题 都 是 问题 体系 中 的 一 部 分 ， 它 可 能 与 一 个 或 多 个 其 他 问 
题 息息相关 ， 并 可 能 与 其 他 问题 产生 直接 或 间接 的 影响 。 在 最 终 确定 解决 问题 的 设计 之 
前 ， 厘 清 问题 的 脉络 至 关 重 要 。 

把 许多 较 小 的 问题 相互 连接 形成 一 个 更 大 的 问题 时 ， 就 会 得 到 一 个 问题 的 体系 ， 每 
个 小 问题 都 可 以 通过 它 的 生命 阶段 、 性 质 和 类 型 来 确定 。 之 后 可 采用 不 同 的 方法 来 解决 
这 些 问 题 ， 而 不 是 使 用 一 种 通用 的 方法 。 循 序 渐进 解决 问题 的 方法 不 仅 节省 时 间 ， 而 且 
影响 深远 。 图 1.8 清晰 地 体现 了 此 处 讨论 的 例子 。 可 以 看 到 ， 大 问题 本 质 上 是 相互 关联 的 
一 个 个 小 问题 。 


”客户 忠诚 奖励 活动 
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1.7 ”问题 解决 框架 


至 此 已 清楚 了 问题 在 它 的 生命 阶段 中 是 如 何 演变 的 ， 以 及 如 何 利 用 它 的 类 型 和 性 质 
来 表示 问题 。 也 领悟 到 掌握 决策 科学 和 解决 问题 这 两 门 学 问 需 勤 学 好 问 精 于 思考 ， 并 需 
采用 跨 学 科 的 方法 来 获得 解决 方案 。 此 外 ， 还 探讨 了 问题 在 性 质 上 是 如 何 相 互 关 联 的 ， 
一 个 大 问题 由 许多 更 小 的 问题 组 成 ， 这 些小 问题 又 可 能 具有 不 同 的 类 型 、 性 质 和 生命 阶 
段 。 下 面 继续 研究 问题 解决 框架 。 

问题 解决 框架 基本 上 代表 了 针对 该 问题 设计 的 整个 解决 方案 的 蓝图 。 比 方 说 ， 正 在 
设计 一 套 软件 或 建造 一 座 房屋 ， 那 么 基本 上 会 拟订 一 个 完整 列表 ， 将 所 需 资源 和 执行 步 
又 罗列 出 来 ， 按 照 所 设想 的 最 终 产品 的 计划 执行 。 解 决 问题 的 情形 也 与 此 类 似 。 如 果 问 
题 很 大 ， 首 先 要 将 问题 分 解 成 更 小 的 问题 ,再 将 许多 假设 汇集 起 来 制 成 一 个 详尽 的 列表 。 
为 了 解决 问题 ， 大 体 上 要 收集 大 量 的 假设 ， 随 后 对 假设 进行 检验 以 获得 结果 。 最 后 ， 把 
所 有 的 结果 综合 在 一 起 ， 这 样 就 可 以 创造 出 一 个 故事 。 在 这 个 故事 中 ， 要 努力 去 回答 诸 
多 问题 ， 而 此 时 我 们 终于 找到 了 一 个 答案 。 这 些 假设 可 以 是 数据 驱动 的 ， 也 可 以 是 启发 
法 驱动 的 。 

现在 举 一 个 例子 以 帮助 理解 问题 解决 框架 的 架构 。 例 如 一 个 水 力 发 电厂 ， 配 有 水 力 
发 电 必 备 的 一 套 小 型 设备 ， 涡轮机、 发 电机 、 变 压 器 、 大 坝 、 带 有 进 气 控制 冰 门 的 压力 
管道 ， 以 及 其 他 一 些 不 可 或 缺 的 设备 。 这 些 装 置 各 有 各 的 用 处 ， 例 如 大 坝 负责 为 水 力 发 
电厂 储 水 。 此 外 还 有 一 种 压力 管道 ， 它 基本 上 是 一 条 长 长 的 进 水 管 ， 通 过 控制 闸门 将 水 
从 水 库 输 送 到 发 电站 ， 并 承载 涡轮 机 。 涡 轮机 是 一 种 装 有 大 型 叶片 的 装置 ， 当 水 落 在 叶 
片上 时 ， 叶 轮 旋转 ， 最 后 发 电机 由 涡轮 机 中 这 些 叶片 的 旋转 产生 交流 电能 (这 里 在 一 定 
程度 上 忽略 其 背后 的 物理 原理 ) 。 随 之 变压器 把 电能 转换 成 更 高 的 电压 能 量 。 在 整个 流 
程 中 ， 通 过 控制 压力 管道 的 闸门 可 以 改变 水 流 进入 发 电厂 的 速度 ， 如 图 1.9 所 示 。 

那么 ， 会 存在 什么 问题 呢 ? 
如 果 您 是 现场 工程 师 ， 有 人 对 您 提出 这 样 一 个 问题 : 为 什么 在 过 去 的 一 个 月 里 ， 水 
力 发 电 的 发 电量 很 低 ? 假设 您 目前 没有 《得 到 授权 ) 对 该 位 置 进行 物理 访问 ， 但 在 您 开 
始 访问 该 站 点 之 前 ， 您 仍然 希望 首先 收集 尽 可 能 多 的 信息 。 这 是 一 种 解决 问题 的 场景 ， 
您 只 有 在 网 站 上 有 时 间 来 解决 问题 ， 而 不 是 赶 去 发 电厂 后 对 各 种 情况 进行 测试 和 检查 找 
出 〈 低 发 电量 的 ) 根源 。 这 个 用 例 的 目的 正 是 让 读者 学 习 如 何 充分 地 利用 数据 来 解决 问 
题 。 因 此 ， 作 为 一 种 更 高 层次 的 方法 ， 读 者 此 时 可 以 使 用 每 个 维度 的 数据 ， 找 出 可 能 造 
成 发 电厂 发 电量 下 降 的 根本 原因 。 
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图 1.9 


既然 问题 的 背景 十 分 清楚 明确 ， 那 么 此 时 后 退 一 步 ， 试 着 更 多 地 了 解 问 题 ， 然 后 再 
学 习 问 题解 决 框架 。 在 这 个 问题 上 ， 首 先 希望 找 出 一 个 事件 的 根本 原因 一 一 简 而 言 之 ， 
希望 能 够 回答 出 这 一 问题 ， 即 “为 什么 这 个 事件 会 发 生 ”。 这 也 表明 了 问题 性 质 上 为 探 
查 性 的 。 其 次 ， 这 个 问题 并 非 一 个 全 新 的 问题 ， 但 它 也 没有 完全 解决 和 经 过 检验 ， 因 而 
也 没有 获得 一 个 详尽 的 解决 方案 用 于 解决 所 有 问题 。 因 此 ， 这 个 问题 尚 处 于 混沌 不 清 的 
阶段 。 最 后 ， 这 个 问题 肯定 会 产生 很 大 的 影响 ， 但 又 不 属于 一 生 一 次 或 数 年 一 遇 的 事件 。 
于 是 可 以 得 出 结论 : 问题 的 影响 度 属于 中 度 到 高 度 ， 发 生 频率 为 中 度 到 高 度 。 鉴 于 目前 
所 观察 到 的 问题 全 貌 ， 可 能 应 该 为 这 个 问题 构建 一 个 永久 性 的 自动 化 解决 方案 的 产品 。 
下 面 就 来 探索 问题 解决 的 框架 。 

这 个 框架 非常 简单 。 如 果 是 业务 领域 的 新 手 ， 那 么 在 开始 解决 问题 之 前 ， 首 先 要 着 
手 收集 有 关 业 务 领 域 的 知识 。 在 本 例 中 ， 将 探究 水 力 发 电站 的 工作 原理 ， 以 及 发 电厂 中 
的 每 个 组 件 在 整个 发 电 过 程 中 所 起 的 作用 。 之 后 ， 将 那些 可 能 构成 问题 解决 方案 一 个 因 
素 的 各 种 假设 ， 收 集 起 来 并 制 成 一 个 列表 。 所 以 ， 图 1.10 列 出 了 所 有 因素 ， 这 些 因素 可 
能 是 造成 想 要 解决 的 问题 的 根本 原因 。 

在 这 种 情况 下 ， 需 要 绞 尽 脑汁 考虑 哪些 因素 可 以 有 效 地 假设 根本 原因 。 例 如 ， 变 压 
器 油 中 有 污染 ， 或 者 可 能 漏 油 。 涡 轮机 的 转子 可 能 过 热 或 者 轮轴 可 能 已 磨 蚀 。 流 入 压力 
管道 的 水 量 和 在 闸门 控制 器 中 设置 的 水 位 可 能 完全 不 同 ， 也 就 是 压力 管道 中 的 水 压 可 能 
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低 于 平常 水 位 ， 涡 轮 叶片 的 转速 较 低 ， 或 者 涡轮 机 的 一 些 关键 参数 由 于 运行 时 间 过 长 而 
造成 参数 值 过 低 。 同 样 ， 变 压 器 或 发 电机 的 许多 关键 参数 ， 可 能 因为 较 长 时 间 的 运行 而 
超出 了 正常 工作 范围 。 一 些 设备 的 齿轮 中 的 油 位 可 能 低 于 理想 油 位 ， 或 者 有 些 设备 可 能 
在 超出 正常 范围 的 温度 下 运行 。 对 于 这 些 设备 ， 应 采用 多 个 参数 来 确定 设备 的 运行 状态 
和 偏离 正常 运行 的 程度 。 仔 细 查 看 这 些 参数 有 助 于 对 电厂 的 整体 情况 了 如 指 掌 。 所 有 这 
些 因素 构成 了 最 初 的 (水 力 发 电 损失 ) 根本 原因 分 析 层 ， 形 成 了 启发 法 驱动 假设 的 一 个 
集合 〈 即 列表 ) 。 
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图 1.10 


一 旦 明确 了 启发 法 驱动 的 假设 ， 就 可 以 根据 行动 项 目 去 检验 哪里 出 现 了 问题 。 可 分 
别 单独 检验 这 些 假设 ， 评 估 这 些 假 设 的 结果 ， 从 中 汇集 洞 见 。 其 次 ， 收 集 的 假设 仍然 不 
够 详尽 无 遗 。 也 许 遗 漏 了 很 多 潜在 的 却 可 能 是 举足轻重 的 相关 因素 ， 这 些 因素 本 质 上 洪 
踪 隐 迹 ， 只 有 在 深入 钻研 这 些 数据 时 才 会 发 现 它们 。 此 刻 暂且 将 数据 驱动 假设 的 讨论 搁 
置 一 旁 ( 待 本 书 讲述 至 第 3 章 “ 探 索性 决策 科学 在 物 联网 中 的 应 用 内 容 和 原因 ”时 ， 再 
做 进一步 详细 介绍 ) 。 现 举 一 个 常见 的 问题 解决 方法 ， 即 汇集 了 几 个 由 启发 法 驱动 的 假 
设 ， 对 数据 做 探索 性 数据 分 析 ， 并 检验 收集 到 的 假设 。 会 发 现 ， 之 前 推出 的 一 些 假设 并 
不 准确 ， 因 为 结果 显得 不 够 直观 。 这 时 可 以 放弃 一 些 假设 ， 优 先 考虑 其 他 一 些 假设 。 同 
时 还 会 察觉 数据 维度 之 间 存在 很 多 新 的 关系 ， 可 是 最 初 并 没有 考虑 到 这 些 关系 。 如 果 复 
查 前 面 所 拟 的 假设 列表 ， 此 时 会 罗列 出 一 个 更 完善 、 更 准确 的 假设 列表 ， 而 且 还 会 增加 
一 些 在 数据 挖掘 期 间 发 现 的 一 些 新 假设 。 这 些 新 的 假设 还 不 一 定 是 最 终 版 的 列表 。 这 个 
列表 可 能 需要 经 过 一 系列 迭代 后 才能 完成 。 经 过 精 挑 细 选 得 出 的 最 终 假设 列表 即 可 称 为 问 
题解 决 框架 。 此 处 正 是 数据 驱动 和 启发 法 驱动 这 两 种 假设 的 融合 交汇 之 处 。 这 可 以 通过 一 
个 矩阵 或 假设 的 优先 级 列表 来 表示 , 需要 对 这 个 列表 进行 验证 以 解决 问题 , 如 图 1.11 所 示 。 
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数据 驱动 的 假设 
ZRI 


图 1.11 


初始 列表 中 可 能 有 一 些 假设 不 具有 任何 意义 ， 因 为 可 能 存在 数据 限制 ， 或 者 可 能 与 
在 分 析 过 程 中 探索 的 一 些 潜在 数据 关系 相悖 。 一 旦 所 有 的 假设 都 经 过 了 检验 ， 就 将 从 同 
一 个 项 目下 的 各 种 检验 中 收集 结果 。 下 一 步 则 是 吸收 结果 ， 从 结果 中 理解 整个 故事 〈 即 
事件 ) 的 情况 。 将 结果 综合 起 来 后 ， 可 能 会 发 现 事件 的 根本 原因 是 由 其 他 一 些 事 件 造成 
的 结果 。 换 言 之 ， 在 收集 数据 结果 的 同时 ， 可 以 得 出 结论 : 压力 管道 中 控制 闸门 的 故障 
是 造成 问题 的 根本 原因 。 这 可 以 从 涡轮 机 和 发 电机 的 关键 参数 中 推断 出 来 ， 它 们 在 较 低 
的 阔 值 下 已 连续 工作 了 一 段 时 间 。 对 水 压 及 其 与 一 段 时 间 内 不 同 的 控制 闸门 的 数值 之 间 
的 相关 性 进行 的 一 些 数据 测试 ， 可 以 作为 同一 值 的 指示 值 。 

简 而 言 之 ， 使 用 问题 解决 框架 ， 通 过 一 个 结构 化 的 方法 来 查看 一 个 非常 高 层次 的 问 
题 。 问 题解 决 框架 是 一 种 简化 的 方法 ， 可 用 以 设计 和 草拟 各 种 由 启发 法 和 数据 探索 结合 
得 出 的 详尽 假设 。 有 了 详尽 的 假设 列表 后 ， 进 行 各 种 数据 检验 ， 从 中 吸收 结果 ， 收 集 各 
种 洞 见 展 开 下 一 步 工 作 ， 随 后 将 结果 综合 起 来 解决 问题 。 在 接 下 来 的 章节 中 ， 将 应 用 问 
题解 决 框架 来 解决 实际 商业 问题 ， 并 且 更 详细 地 逐步 了 解 每 个 阶段 。 


L8 -al 结 


本 章 简要 概述 了 决策 科学 和 物 联 网 ， 从 学 习 物 联网 基础 知识 开始 ， 进 而 探寻 物 联网 
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演变 进程 ， 并 且 对 诸如 机 器 对 机 器 通信 (M2M) 、 工 业 物 联网 (IIoT) 、 万 物 互联 (IoE) 
等 模糊 名 称 之 间 的 差异 进行 辨析 。 而 且 ， 通 过 物 联网 的 例子 ， 研 究 了 物 联网 生态 系统 的 
逻辑 架构 ， 充 分 领略 到 人 、 流 程 、 数 据 和 物 这 四 者 是 如 何 形成 物 联网 生态 系统 的 。 接 着 ， 
还 讨论 了 决策 科学 ， 深 入 诠释 如 何 界定 一 个 问题 ， 即 基于 问题 当前 生命 阶段 将 其 确定 为 
一 团 乱 麻 、 混 沌 不 清 或 者 清晰 明朗 ， 而 基于 问题 类 型 则 将 其 确定 为 具有 影响 力 的 和 具有 
一 定 频率 的 ， 最 后 基于 问题 的 性 质 将 其 分 为 描述 性 的 、 探 查 性 的 、 预 测 性 的 或 者 规范 性 
的 。 此 外 ， 也 探究 了 在 决策 科学 中 解决 问题 需要 运用 数学 、 商 业 、 技 术 等 多 学 科 的 方法 。 
最 后 ， 还 采用 了 一 个 水 力 发 电厂 的 通用 实例 对 问题 解决 框架 进行 剖析 。 
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物 联网 在 整个 产业 中 星罗棋布 遍地 开花 。 它 的 触角 伸 向 了 每 一 个 行业 ， 无 论 是 垂直 
发 展 或 横向 发 展 的 行业 都 无 一 例外 。 从 消费 电子 、 汽 车 、 航 空 、 能 源 、 石 油 到 天 然 气 、 
制造 业 、 银 行业 等 ， 几 乎 每 个 行业 都 从 物 联网 中 获 益 菲 浅 。 而 在 这 些 单个 商业 领域 中 出 
现 的 每 一 个 问题 都 叹 须 解决 ， 这 些 问 题 也 表明 了 行业 本 身 所 存在 的 问题 ， 因 此 人 们 常常 
将 宽泛 的 物 联 网 按 相似 特征 一 一 分 类 。 这 也 就 是 现在 人 们 频繁 地 使 用 工业 物 联网 、 消 费 
物 联网 诸如 此 类 名 称 的 原因 所 在 。 撤 开 这 些 较 大 的 分 类 ， 可 以 将 物 联网 要 解决 的 问题 简 
单 地 分 成 两 类 ， 即 “运营 互联 ”和 “资产 互联 ”。 

在 本 章 中 ， 不 仅 研究 物 联网 问题 体系 ， 还 探讨 如 何 应 用 第 1 章 “ 物 联网 和 决策 科学 ” 
的 问题 解决 框架 ， 为 问题 构建 一 个 蓝图 并 设计 一 个 商业 用 例 。 首 先 通过 实例 细 细 探究 资 
产 互联 和 运营 互联 。 黄 定好 基础 后 ， 再 去 解决 物 联网 商业 问题 一 一 即 先 研究 问题 的 背景 ， 
识别 相关 的 潜在 问题 ， 最 后 用 问题 解决 框架 来 设计 用 例 。 

本 章 将 涵盖 以 下 主题 : 

口 ”资产 互联 及 运营 互联 。 

口 解析 商业 用 例 。 

口 感知 相关 的 潜在 问题 。 

口 ” 设 计 启发 法 驱动 的 假设 矩阵 。 
至 本 章 结 尾 处 时 ， 无 论 是 吸 待 解决 的 商业 问题 ， 或 尚 需 深入 挖掘 的 领域 ， 还 是 需要 
逐步 解决 的 问题 路 线 图 ， 读 者 都 会 对 它们 的 所 有 情况 了 然 于 心 。 


2.1 资产 互联 和 运营 互联 


随 着 物 联网 在 业内 各 个 方面 的 迅速 发 展 ， 在 各 不 相同 的 领域 里 出 现 的 问题 也 是 多 元 
化 的 。 为 了 简化 问题 ， 一 些 产业 引领 者 采取 最 直观 的 方法 ， 用 逻辑 划分 物 联网 领域 。 如 
今 ， 互 联网 上 发 表 了 数量 众多 的 物 联网 文章 和 论文 ， 引 用 了 许多 不 同 的 物 联网 名 称 和 分 
类 。 截 至 目前 ， 还 没有 出 现 能 够 让 人 们 普遍 接受 的 物 联网 分 类 ， 但 是 消费 物 联网 、 工 业 
物 联 网 、 医 疗 保健 物 联网 等 这 些 名 称 各 异 的 分 类 都 纷纷 涌现 。 工 业 领域 中 所 有 与 物 联网 
相关 的 问题 和 解决 方案 都 被 称 为 工业 物 联网 ， 以 此 类 推 。 
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在 研究 资产 互联 和 运营 互联 之 前 ， 先 来 探讨 物 联 网 领域 的 简单 分 类 。 这 绝 非 是 最 详 
尽 无 遗 和 最 广泛 认可 的 分 类 ， 但 这 些 分 类 肯定 会 帮助 人 们 更 清楚 地 理解 问题 的 性 质 ， 如 
图 2.1 所 示 。 


基础 设施 物 联网 


一 智慧 城市 


图 2.1 


当 观 察 物 联网 领域 的 全 貌 时 ， 可 以 思考 有 助 于 物 联网 发 展演 变 的 4 个 广泛 领域 。 这 
些 领 域 的 问题 都 是 与 消费 者 、 工 业 、 环 境 或 基础 设施 相关 的 一 组 问题 。 顾 名 思 义 ， 所 有 
可 以 直接 标记 给 消费 者 的 东西 ， 即 电子 产品 、 家 用 电器 、 医 疗 保健 、 零 售 、 汽 车 等 ， 每 
一 种 都 可 以 单独 代表 一 组 问题 ， 这 些 种 类 就 归 类 为 消费 物 联网 。 这 个 领域 的 问题 需要 采 
取 不 同 的 方式 来 解决 ， 因 为 它 直接 与 消费 者 互动 。 同 样 ， 垂 直行 业 也 可 以 视 为 所 有 结果 
直接 标记 给 机 器 的 领域 ， 如 制造 业 和 工程 行业 等 使 用 机 器 的 领域 。 重 工业 、 智 能 工厂 、 
石油 和 天 然 气 以 及 能 源 领域 现在 都 配 有 相互 通信 的 机 器 和 物 联 网 。 还 会 有 更 多 的 分 类 ， 
而 垂直 行业 的 分 类 永 无 止境 ， 每 个 行业 的 每 个 领域 里 都 有 共同 问题 。 

从 整体 角度 来 看 待 物 联网 问题 ， 可 以 归结 为 两 个 简单 分 类 : 

ü 资产 互联 。 

口 运营 互联 。 

解决 问题 时 ， 尽 管用 一 个 较 小 分 类 去 代表 一 个 较 小 领域 总 有 颇 多 益处 ， 但 从 更 广泛 
的 层面 上 看 ， 上 述 两 个 分 类 中 任何 一 个 都 能 够 直接 代表 物 联网 中 存在 的 任何 问题 。 下 面 
就 开始 探索 物 联网 问题 的 关键 所 在 : 资产 互联 和 运营 互联 。 


24.1 物 与 智能 之 物 的 互联 


把 物 连接 到 网 络 揭 开 了 物 联网 革命 的 一 个 新 篇 章 。 俗 话说 : “关系 网 乃 是 企业 成 功 
的 关键 。” 物 联网 产业 也 是 基于 这 个 原则 构建 而 成 的 。 这 里 举 一 个 简单 的 例子 来 理解 这 
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一 点 。 比 如 ， 您 是 一 个 软件 工程 师 ， 非 常 渴望 能 够 转行 从 事 分 析 行 业 的 工作 ， 但 是 目前 
这 个 领域 对 您 来 说 属于 一 个 全 新 的 领域 ， 几 乎 没有 任何 朋友 可 以 帮助 您 从 头 起 步 。 因 此 ， 
您 利用 互联 网 搜索 与 分 析 行 业 有 关 的 信息 ， 通 过 阅读 大 量 书籍 和 观看 视频 来 研究 学 习 。 
经 过 3 个 月 废寝忘食 的 学 习 ， 您 向 多 家 公司 申请 了 他 们 的 分 析 师 职位 。 在 参加 了 几 次 面 
试 后 ， 发 现在 一 些 主题 上 还 需要 从 专业 角度 进行 深入 钻研 ， 做 好 更 充分 的 准备 。 于 是 ， 
您 继续 努力 学 习 ， 不 断 地 参加 面试 ， 经 过 多 次 尝试 后 成 功 通过 了 面试 。 假 设 整个 过 程 花 
了 您 大 约 6 个 月 的 时 间 ， 那 么 还 有 什么 其 他 方法 比 这 更 容易 的 呢 ? 如 果 您 认识 从 事 分 析 
行业 的 业内 人 士 ， 他 们 中 有 人 可 能 会 指导 您 学 习 他 们 公司 招聘 职位 所 需 的 技能 。 这 样 整 
个 学 习 过 程 也 许 会 缩短 至 两 个 月 ! 而 这 无 疑 是 一 个 很 好 的 节省 时 间 的 方法 。 关 系 网 ， 如 
图 2.2 所 示 〈 亦 即 网 络 ) 可 以 帮助 您 更 快捷 、 更 容易 地 获得 所 需 的 信息 ， 这 反 过 来 又 能 帮 
助 您 更 好 地 做 出 决策 、 更 快 地 发 展 。 


图 2.2 


不 妨 将 上 述 类 比 应 用 到 物 联网 领域 上 来 。 生 态 系统 中 的 物 联网 首先 要 将 设备 / 物 连接 
起 来 。 一 旦 设备 连接 了 起 来 后 ， 即 可 相互 通信 ;而 一 旦 设备 相互 通信 ， 就 会 变 得 更 为 知 
能 。 为 了 简单 起 见 ， 举 一 个 家 用 空调 的 例子 。 很 早 以 前 ， 家 庭 里 的 空调 只 是 一 个 独立 的 
设备 ， 需 要 时 才 打 开 /关闭 。 随 着 时 间 的 推移 ， 空 调 可 以 连接 到 了 一 个 网 络 ， 现 在 使 用 连 
接 到 互联 网 的 遥控 器 /智能 手机 或 平板 电脑 就 能 控制 空调 的 开关 。 因 此 ， 这 些 空 调 伍 然 成 
了 “互联 设备 ”， 为 人 们 提供 更 加 方便 的 服务 。 假 设 您 离开 家 时 忘 了 关 掉 空调 ， 而 在 路 
上 才 突 然 意识 到 这 一 点 。 即 使 您 还 在 上 班 途中 ， 也 可 以 用 智能 手机 迅速 把 空调 关闭 。 最 
后 ， 当 这 些 设备 连接 时 ， 起 初 不 可 用 的 大 量 数据 也 随 之 传输 到 了 这 些 设备 上 。 人 们 可 以 
利用 这 些 数 据 做 出 决策 ， 让 生活 变 得 越发 舒适 。 连 接 后 的 空调 既 能 通过 互联 网 连接 到 智 
能 手机 ， 也 能 连接 到 一 个 传感器 ， 这 个 传感器 会 检测 房间 里 的 人 数 ， 然 后 根据 数据 自动 
调整 设置 。 因 此 ， 这 台 空 调 就 摇 身 变 成 了 一 台 智能 空调 。 如 果 有 人 进入 房间 时 ， 它 会 自 
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动 开 启 电源 ， 当 进入 房间 的 人 越 来 越 多 ， 它 就 会 相应 地 调整 设置 。 一 旦 设备 连接 起 来 ， 
下 一 步 就 是 要 让 它们 变 得 更 加 智能 。 

这 个 经 验 法 则 也 一 样 适用 于 其 他 用 例 。 

当今 世界 ， 智 能 互联 设备 蓬勃 发 展 。 几 乎 所 有 的 商业 模式 早已 意识 到 可 从 智能 互联 
设备 中 挖掘 出 它们 的 潜在 价值 。 这 个 设备 可 能 只 是 家 庭 自动 化 里 的 一 台 机 器 或 者 工厂 里 
的 一 架 庞然大物 ， 如 果 物 物 相 连 ， 人 们 肯定 能 够 发 掘 出 具有 连城 之 价 的 信息 。 


2.1.2 一 个 现实 生活 的 场景 资产 互联 


这 里 举 一 个 现实 生活 中 的 例子 ， 了 解 资产 互联 在 一 家 大 型 公司 里 是 如 何 运作 的 。 为 
了 更 清楚 地 理解 这 一 点 ， 将 咖啡 机 当 作 一 个 研究 用 例 〈 见 图 2.3) 。 市 场 上 的 咖啡 机 ， 如 
赛 奇 电器 公司 (Sage Appliances) 正 计划 推出 一 款 名 为 Caffeine Express 的 新 型 咖啡 机 ， 
这 款 新 机 也 会 成 为 制造 商 资产 互联 实验 的 一 部 分 。 那 么 传统 商业 是 如 何 运作 的 呢 ? 首先 ， 
公司 会 向 全 世界 客户 销售 这 个 产品 ， 在 战略 地 点 建立 服务 中 心 。 为 了 简单 起 见 ， 假 设 他 
们 只 在 一 个 国家 销售 电器 ， 最 好 在 首都 或 重要 城市 设立 服务 中 心 。 比 如 在 一 个 国家 共 5 
个 城市 设立 了 服务 中 心 。 


赛 奇 电器 公司 
私有 云 


@ GPs: 咖啡 机 位 于 何 处 ? E E 
传感器 : 温度 和 噪音 /振动 幅度 正常 吗 ? r r 


|] 传感器 ， 咖啡 机 过 度 消耗 电量 吗 ? ir 全 部 已 售 咖啡 机 L4 


Caffeine Express 传感器 : 咖啡 机 状态 正常 吗 ? ri 
传感器 :咖啡 机 使 用 了 多 长 时 间 Lr w 
(以 小 时 计 ) ? 


图 2.3 


在 传统 商业 模式 中 ， 电 器 销售 后 ， 公 司 只 掌握 了 极为 有 限 的 销售 信息 或 电器 运行 的 
大 致 情况 。 他 们 可 能 知悉 迄今 为 止 的 销售 总 额 ， 以 及 在 线 销售 或 实体 商店 的 销售 量 。 也 
清楚 哪个 商店 /地 区 出 售 了 多 少 台 电器 和 其 他 一 些 细 枝 末节 。 此 外 ， 公 司 还 知道 用 户 是 如 
何 使 用 电器 的 ， 并 通过 社交 媒体 或 客户 服务 中 心 的 用 户 意见 获知 电器 运行 情况 。 但 是 ， 
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从 整体 角度 来 看 ， 这 些 信息 还 远 未 达到 他 们 的 要 求 。 

现在 用 物 联 网 商业 模式 来 分 析 。 假 设 每 台 售 出 的 Caffeine Express 咖啡 机 都 配备 了 一 
个 GPS、Wi-Fi 连接 互联 网 的 功能 ， 以 及 一 些 能 够 监控 内 部 参数 的 传感器 。GPS 根据 地 理 
位 置 定位 咖啡 机 ， 传 感 器 从 咖啡 机 定期 收集 数据 ， 了 解 每 天 冲 泡 多 少 杯 咖啡 以 及 冲 泡 的 
时 间 。 传 感 器 还 可 以 捕获 咖啡 机 的 运行 参数 ， 如 电机 的 健康 指数 、 设 备 的 温度 、 耗 费 的 
电量 、 噪 声 和 振动 幅度 等 。 经 客户 允许 后 ， 所 有 这 些 信 息 都 会 发 送 到 公司 的 私有 云 。 如 
今 ， 物 联网 加 入 生态 系统 后 ， 即 使 产品 出 售 给 了 客户 ， 公 司 也 能 够 与 售 出 后 的 设备 保持 
着 连接 ， 这 种 情况 是 前 所 未 有 的 。 今 天 ， 公 司 不 仅 可 以 利用 极其 丰富 的 数据 来 源 来 帮助 
客户 ， 与 此 同时 也 发 展 他 们 自身 的 业务 。 从 技术 上 来 看 ， 这 就 是 一 个 “资产 互联 ”的 简 
单 例子 。 在 本 例 中 ， 每 台 咖 啡 机 都 配备 了 互联 网 连接 、 传 感 器 和 GPS， 可 以 连接 到 公司 
私有 云 上 的 中 央 服 务 器 。 

那么 ， 设 备 互联 后 到 底 会 发 生 什 么 ? 互联 后 会 带 来 什么 益处 ? 

这 正 是 资产 互联 与 众 不 同 之 处 。 以 前 公司 都 是 通过 判断 、 启 发 法 和 市 场 调查 来 制订 
决策 的 。 在 最 终 确定 服务 中 心 设 立 的 地 点 之 前 ， 公 司 都 要 事先 进行 研究 和 试验 ， 看 看 哪 
种 媒介 适合 市 场 营销 ， 哪 些 州 /城市 更 注重 销售 等 。 而 借助 物 联网 中 的 资产 互联 ， 所 有 这 
些 决 策 在 数据 基础 上 会 变 得 更 加 准确 。 

赛 奇 电器 公司 现在 能 够 确切 掌握 每 个 区 域 销 售 了 多 少 台 咖 啡 机 ， 这 些 咖 啡 机 的 使 用 
频率 以 及 运行 情况 等 。 之 前 做 出 的 决策 可 能 并 不 准确 ， 但 如 今 所 有 这 些 决策 都 可 以 通过 
数据 来 验证 。 假 设 原来 观察 发 现 咖啡 机 在 伦敦 销售 量 最 大 ， 因 而 在 伦敦 北部 建立 了 客户 
服务 中 心 。 但 是 ， 如 果 从 伦敦 所 有 销售 中 发 现 90% 销 售 来 源 于 伦敦 南部 呢 ? 假设 伦敦 南 
部 的 顾客 为 了 享受 一 些 优惠 而 前 往 伦敦 北部 购买 了 咖啡 机 ， 如 果 公 司 在 伦敦 南部 设立 客 
户 服务 中 心 ， 那 么 就 会 大 大 提高 最 终 用户 的 便利 性 。 

同样 ， 咖 啡 机 上 安装 的 传感器 会 向 公司 的 云端 周期 性 地 发 送 自身 使 用 情况 和 状态 的 
信息 。 这 些 数据 帮助 公司 了 解 咖啡 机 的 运行 情况 以 及 是 否 濒临 损坏 。 咖 啡 机 是 否 不 按 常 
规 使 用 ? 是 否 加 热 过 度 还 是 功率 损耗 过 大 ? 所 有 这 些 问 题 的 答案 ， 都 将 有 助 于 公司 更 好 
地 以 数据 为 基础 分 析 决 定 如 何 解决 这 些 问题 。 公 司 可 以 积极 主动 地 联系 客户 ， 在 咖啡 机 
发 生 故 障 前 派 去 技术 人 员 ， 或 者 采取 积极 措施 ， 通 知客 户 如 何 对 功率 损耗 过 大 而 发 生 故 
障 的 咖啡 机 进行 修复 。 不 仅 如 此 ， 根 据 咖啡 机 运行 数据 研究 得 出 的 信息 ， 还 能 够 帮助 该 
公司 更 好 地 为 客户 服务 中 心计 划 准 备 库存 。 

从 长 远 来 看 ， 客 户 和 企业 都 能 从 这 个 相互 连接 的 生态 系统 受益 菲 浅 。 客 户 以 最 小 的 
成 本 获得 世界 一 流 的 服务 ， 而 企业 可 以 通过 降低 运营 成 本 和 有 效 计划 商业 活动 获得 更 多 
利润 。 
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2.4.8 运营 互联 一 一 下 一 场 革命 

物 联网 问题 的 第 二 部 分 是 “运营 互联 ”。 一 般 而 言 ， 企 业 首 先 要 为 互联 的 资产 准备 
好 一 个 生态 系统 。 一 旦 生态 系统 足够 成 熟 ， 就 可 以 将 运营 连接 起 来 以 实现 下 一 级 的 连接 。 
这 些 运营 可 能 与 公司 制造 、 库 存 、 供 应 链 、 市 场 营销 、 运 输 、 配 送 、 客 户 服务 等 相关 。 
假设 一 个 企业 让 所 有 这 些 运营 相互 连接 并 简化 流程 ， 就 可 以 消除 整个 瓶颈 区 域 ， 整 个 流 
程 也 会 变 得 非常 高 效 顺畅 且 节 省 成 本 。 目 前 ， 业 界 正在 慢 慢 地 朝 着 一 场 革 命 迈进 。 这 场 
革命 即 工业 4.0， 有 时 也 称 为 智能 工厂 。 

什么 是 工业 4.0 

现今 所 处 的 时 代 即 第 四 次 工业 革命 ， 这 次 工业 革命 由 物 联网 引发 。 回 顾 历史 ， 工 业 
机 械 化 时 ， 第 一 次 工业 革命 就 出 现 了 。 那 时 整个 工业 劳动 都 由 劳动 者 完成 ， 而 到 18 世纪 
初时 ， 工 厂 在 纺织 工业 中 首次 实行 机 械 化 ， 取 得 了 工业 革命 的 第 一 个 突破 。 以 前 纺织 都 
是 分 散在 数 百 家 纺织 工人 的 小 屋 里 手工 完成 的 ， 后 来 都 被 集中 在 一 家 棉纺 厂 中 完成 ， 这 
时 工厂 顺 其 自然 出 现 了 。 第 二 次 工业 革命 (工业 2.0) 诞生 于 20 世纪 初 ， 当 时 亨利 。 福 
特 (Henry Ford). 创新 了 装配 流水 线 从 而 引发 了 大 规模 生产 的 革命 。 这 些 革命 给 人 类 不 仅 
在 城市 化 上 也 在 财富 上 都 带 来 了 巨大 的 利益 。 不 久 以 前 ， 人 们 见证 了 信息 技术 诞生 的 第 
三 次 工业 革命 (工业 3.00 。 无 数 事物 都 是 数字 化 的 ， 而 且 信 息 技术 在 工业 变革 中 扮演 着 
举足轻重 的 角色 。 人 们 在 世界 各 地 看 到 的 主要 组 织 仍然 属于 第 三 次 工业 革命 的 一 部 分 。 
工业 4.0, 即 第 四 次 工业 革命 ， 随 着 物 联 网 的 兴起 而 开始 蓬勃 发 展 。 资 产 互联 的 开始 ， 
最 终 会 产生 运营 互联 的 概念 ， 并 且 将 一 个 智能 工厂 的 想法 概念 化 。 一 个 智能 工厂 可 以 让 
所 有 运营 互相 通信 ， 协 调 自动 决策 ， 从 而 降低 运营 成 本 ， 这 是 一 个 真正 具有 革命 性 的 
产业 。 

现 举 一 个 简单 的 例子 , 探寻 工业 4.0 智能 工厂 是 如 何 工 作 的 。 采 用 前 面 的 咖啡 机 案例 。 
比如 在 工厂 的 场景 中 ， 会 有 多 种 运营 或 流程 。 假 设 以 下 流程 是 整个 运营 列表 中 的 一 部 分 ， 
比方 说 有 供应 链 、 制 造 、 运 输 、 配 送 和 客户 服务 。 

运营 的 生命 周期 如 图 2.4 所 示 。 

下 面 假设 一 个 简化 的 流程 。 

从 不 同 的 供应 商 采 购 原材料 之 后 ， 只 要 库存 达到 了 制造 的 需求 量 ， 系 统 就 开始 制造 
产品 。 产 品 制造 和 包装 后 ， 就 运送 到 国内 各 个 城市 / 州 的 仓库 。 接 着 ， 将 货物 从 这 些 仓库 
中 配送 到 各 个 商店 给 顾客 购买 。 客 户 使 用 咖啡 机 一 段 时 间 后 ， 有 些 客户 会 返回 服务 中 心 
处 理 他 们 遇 到 的 问题 。 这 些 产品 可 能 需要 维修 或 更 换 ， 于 是 就 回归 到 了 配送 链 。 这 种 模 
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型 就 是 一 家 包含 了 各 种 各 样 运营 的 工厂 的 一 个 通用 模型 。 一 个 人 负责 每 一 个 中 间 过 程 ， 
以 采取 下 一 步 的 行动 。 


咖啡 机 生产 流程 


从 不 同 供应 商 处 将 原材料 制造 成 根据 需求 将 产品 将 产品 配送 给 各 按 客户 需求 销售 
采购 原材料 产品 运输 到 各 地 区 个 实体 店 销售 产品 和 提供 客户 
服务 


图 2.4 
现在 来 对 智能 工厂 中 的 运营 互联 ( 见 图 2.5) 一 探究 竟 。 


智能 连接 运营 


从 不 同 供应 商 处 将 原材料 制造 成 根据 需求 将 产品 将 产品 配送 给 各 按 客户 需求 销售 产 
采购 原材料 产品 运输 到 各 地 区 个 实体 店 销售 品 和 提供 客户 服务 


图 2.5 


如 果 上 面 所 有 这 些 运营 都 可 以 相互 通信 , 会 发 生 什 么 呢 ? 通过 这 些 运营 之 间 的 通信 ， 
它们 也 可 以 自己 做 出 决定 ， 以 获得 最 佳 和 最 优化 的 结果 。 比 如 ， 一 旦 原材料 供应 在 工厂 
库房 准备 就 绪 ， 制 造 环节 就 自动 启动 一 个 流程 ， 从 源头 按 生 产 的 需求 量 来 采集 相应 的 原 
材料 进行 生产 。 制 造 运营 可 以 跟 运 输 运 营 通信 ; 因此 ， 根 据 制造 的 产品 ， 制 造 运营 自动 
决定 要 运送 到 不 同 地 点 的 产品 的 类 型 和 数量 。 运 输 运 营 接收 来 自制 造 运营 的 信息 ， 自 动 
地 将 货物 分 配给 不 同 的 卡车 (用 于 运输 的 车 辆 ) ， 而 且 将 货物 运输 目的 地 仓库) 以 及 
预期 到 达 时 间 通 知 与 之 关联 的 驾驶 员 。 于 是 ， 驾 驶 员 很 快 将 货物 运送 到 各 自 的 目的 地 。 
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货物 到 达 仓库 后 ， 系 统 会 自动 更 新 库存 的 数据 库 。 然 后 配送 运营 收 到 商店 信息 ， 即 哪 家 
商店 需要 多 少 产品 以 及 哪 种 产品 的 信息 ; 系统 此 时 会 自动 为 每 家 商店 按 最 小 货 量 分 配 货 
物 ， 并 通知 每 个 分 销 商 。 产 品 最 终 到 达 商 店 上 架 销 售 。 一 旦 库存 即将 售 整 ， 商 店 /销售 运 
营 自 动 发 出 信息 要 求 补 充 货物 ， 而 其 他 运营 最 终 也 会 收 到 这 个 信息 。 

从 中 得 以 窥视 到 一 个 智能 工厂 ,也 就 是 工业 4.0 的 一 种 场景 , 每 个 运营 都 可 以 与 其 他 
运营 进行 通信 并 且 做 出 决策 ， 从 而 将 传统 工厂 转变 为 智能 连接 工厂 。 


2.2 解析 商业 用 例 


到 目前 为 止 ， 已 经 清楚 了 在 典型 的 物 联网 场景 中 会 出 现 什么 样 的 问题 ， 以 及 如 何 将 
其 分 类 为 运营 互联 和 资产 互联 。 下 面 ， 着 重 于 设计 和 解决 物 联网 的 实际 商业 用 例 。 这 里 
将 探讨 如 何 应 用 物 联网 决策 科学 的 跨 学 科 方法 来 解决 问题 。 

本 节 从 制造 业 的 一 个 简单 问题 开始 。 假 设 有 一 家 大 型 的 跨国 消费 品 公司 ， 例 如 拥有 
各 种 海量 产品 的 宝洁 公司 Procter&Gamble) 。 采 用 他 们 的 汰 渍 洗涤 产品 作为 研究 案例 。 
汰 渍 既 有 洗衣 粉 ， 也 有 洗衣 液 ， 而 且 这 些 产品 的 气味 截然 不 同 ， 洁 净 度 也 各 不 相同 。 假 
如 宝洁 公司 拥有 一 家 生产 洗衣 粉 的 工厂 ， 而 这 家 工厂 有 一 条 生产 线 〈 生 产 货 物 的 流水 线 
是 端 到 端的 生产 线 ) 。 工 厂 一 次 性 生产 500 千克 的 洗衣 粉 。 工 厂 的 运营 主管 约翰 遇 到 一 
个 问题 ， 希 望 我 方 团 队 能 够 帮助 他 。 约 翰 认 为 制造 环节 中 生产 的 洗涤 剂 的 质量 往往 达 不 
到 要 求 。 只 要 生产 的 洗衣 粉 的 质量 低 于 标准 水 平 ， 他 们 就 必须 将 洗衣 粉 丢弃 并 重新 生产 。 
而 这 造成 了 时 间 和 金钱 的 巨大 损失 。 然 而 约翰 并 不 清楚 这 个 问题 的 确切 原因 。 他 认为 这 
可 能 是 因为 机 器 故障 或 工人 失误 而 导致 的 ， 但 他 并 不 确定 真正 的 原因 。 因 此 ， 约 翰 向 我 
们 求助 ， 看 看 是 否 能 够 帮 他 走出 困境 。 

这 时 决策 科学 就 大 有 作为 了 。 问 题 已 经 确定 ， 只 要 找到 问题 的 解决 方案 就 能 帮助 约 
翰 做 出 更 好 的 决策 。 于 是 我 们 向 约翰 承诺 ， 一 定 会 帮助 他 解决 这 个 问题 。 约 翰 听 后 松 了 
一 口气 ， 接 着 继续 忙碌 起 来 。 在 他 回去 工作 之 前 ， 他 被 告知 第 二 天 可 以 和 他 见面 讨论 这 
个 问题 。 

这 样 听 起 来 是 不 是 棒 极 了 ? 现在 就 来 迅速 地 探 清 解决 这 个 问题 需要 做 些 什么 。 首 先 ， 
从 约翰 那里 听 到 的 仅仅 是 问题 陈述 〈 在 把 事件 作为 一 个 问题 陈述 之 前 ， 它 仍然 是 原始 的 
问题 ， 还 需要 很 多 改进 ) 。 约 翰 多 次 提 到 洗涤 产品 的 质量 低 于 可 接受 的 范围 ， 因 此 不 得 
不 将 产品 丢弃 ， 从 而 也 造成 了 经 济 损失 。 那 么 如 何 才能 帮助 他 呢 ? 可 以 执行 哪些 不 同 的 
分 析 操 作 ? 如 何 找 出 产品 质量 不 好 的 原因 ? 是 否 需 要 减少 财务 损失 或 提高 产品 质量 ? 此 
时 此 刻 有 太 多 的 问题 ， 千 头 万 绪 无 从 下 手 。 对 于 每 个 试图 解决 问题 的 人 来 说 ， 这 种 情况 
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属 常见 。 稍 事 休息 ， 先 去 仔细 思考 如 何 才能 更 好 地 构建 问题 和 理解 问题 。 

在 解决 问题 时 有 一 个 重要 法 则 ， 即 对 于 任何 用 例 ， 都 要 按 简单 却 重要 的 5 个 步骤 去 
计划 和 执行 : 

(1) 解析 问题 。 

(2) 研究 和 收集 背景 信息 。 

(3) 根据 数据 的 可 用 性 优先 考虑 和 构建 假设 。 

(4) 验证 和 改进 假设 (重复 步骤 (2) 和 (3) ) 。 

G) 吸收 结果 并 呈现 故事 〈 即 解决 方案 ) 。 

下 面 就 来 一 步 步 地 实施 上 述 用 例 。 


2.2.1 解析 问题 


解决 任何 问题 时 ， 第 一 步 必须 清楚 地 解析 问题 。 接 下 来 ， 采 取 言 简 意 赎 的 陈述 方式 
对 问题 进行 解析 。 为 了 达到 这 个 目的 ， 将 采用 一 个 众所周知 的 框架 。 业 内 一 些 领先 者 如 
麦肯锡 公司 、 穆 西格玛 公司 等 均 采 用 这 个 框架 ,通过 一 种 结构 化 的 分 析 方 式 来 呈现 问题 ， 
这 种 结构 即 为 “情景 -冲突 -疑问 (Situation,Complication, Question， 简 称 SCQ) ” o 

为 了 解析 这 个 问题 ， 需 提出 以 下 3 个 简单 的 问题 : 

Q ”情景 即 现在 面临 的 问题 是 什么 ? 

口 解决 问题 时 所 面临 的 冲突 有 哪些 ? 

口 “为 了 解决 问题 ， 有 哪些 疑问 需要 解答 ? 

在 收集 这 3 个 简单 问题 的 答案 时 ， 就 能 将 一 个 问题 陈述 用 最 清晰 的 语言 表述 出 来 。 
下 面 着 手 构建 一 个 SCQ 框架 。 

图 2.6 即 是 商业 用 例 SCQ 的 简化 表示 。 

以 上 简明 扼要 地 描述 了 问题 的 情景 ， 也 突显 出 了 在 解决 问题 时 所 面临 的 主要 冲突 。 
在 这 个 用 例 中 ， 不 确定 是 什么 因素 ， 导 致 了 在 生产 洗涤 剂 的 环节 中 出 现 了 失误 或 产 出 了 
不 良品 ， 因 此 ， 将 这 个 因素 突出 强调 为 主要 冲突 。 为 了 解决 这 个 问题 ， 还 需要 回答 几 个 
疑问 。 可 以 直接 从 冲突 的 角度 来 了 解 需要 回答 的 几 个 主要 问题 : 即 哪些 因素 对 质量 下 降 
产生 影响 ， 它 们 又 是 如 何 影响 质量 的 ? 在 清楚 了 每 个 因素 是 如 何 影响 洗涤 剂 生 产 质量 之 
后 ， 也 需要 知道 要 如 何 去 改 善 洗涤 剂 的 质量 。 最 后 ， 一 旦 对 SCQ 做 出 了 明确 的 解析 ， 就 
能 够 轻松 地 找到 解决 问题 所 需 的 解决 方案 (请 参见 图 2.6 最 右边 的 方 框 内 容 ) 。 

SCQ 框架 可 用 来 简洁 地 呈现 任何 问题 。 只 要 对 商业 问题 清晰 地 进行 解析 ， 就 可 以 继 
续 下 一 个 解决 问题 的 逻辑 步骤 ， 即 收集 更 多 的 背景 信息 ， 为 问题 罗列 出 一 个 详尽 的 假设 
列表 。 


将 
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生产 失误 的 原因 未 明 


一 3 一 


研究 不 同 的 因素 是 如 何 


大 型 的 消费 品 提供 商 的 一 家 洗 | :| 影响 生产 质量 的 
涤 剂 厂 由 于 生产 失误 造成 巨大 一 一 
损失 


| ; - 区 设计 纠正 措施 去 改进 生 
DUO 产 质量 从 而 减少 损失 

造成 生产 失误 的 因素 有 哪些 ? 

-这 些 因素 是 如 何 影响 生产 的 ? 

-如 何 才能 减少 这 些 失误 ? 


222 ”研究 和 收集 背景 信息 


研究 问题 和 收集 越 来 越 多 的 背景 信息 是 一 个 漫长 的 过 程 。 这 个 过 程 远 比 想象 的 要 付 
出 更 艰辛 的 努力 。 而 且 ， 在 分 析 过 程 中 不 断 发 现 更 多 更 新 的 信息 时 ， 这 个 步骤 就 会 反 反 
复 复 地 进行 。 

在 上 述 用 例 中 ， 需 要 解决 洗涤 剂 生 产 公司 的 一 个 小 问题 。 这 家 公司 拥有 一 家 生产 工 
三 ， 由 于 生产 质量 欠 佳 ， 在 时 间 和 金钱 上 都 蒙受 了 巨大 损失 。 为 了 更 清楚 地 查 明 影响 质 
量 的 因素 及 其 原因 并 且 解 决 问题 ， 需 要 更 深入 地 探查 问题 的 背景 。 除 了 利用 敏锐 的 洞察 
力 对 所 发 生 的 事情 进行 研究 以 外 ， 在 一 定 程度 上 也 要 知道 这 些 事情 在 生产 过 程 中 发 生 的 
原因 。 首 先 ， 可 以 从 工程 师 角 度 去 思考 生产 工厂 的 运营 开始 ， 试 着 更 多 地 了 解 运 营 和 原 
料 等 。 研 究 的 范围 包括 查 清洗 涤 剂 生产 过 程 ， 使 用 什么 样 的 原料 ， 需 要 多 长 时 间 ， 以 及 
公司 使 用 什么 机 器 。 但 是 ， 在 开始 研究 之 前 ， 先 来 仔细 分 析 正 要 解决 的 问题 。 

正如 第 1 章 所 讨论 的 ， 从 3 个 简单 的 维度 分 析 问 题 的 类 型 ， 即 问题 的 生命 阶段 ， 问 
题 的 频率 和 影响 ， 以 及 问题 的 性 质 。 

1. 收集 背景 信息 一 一 查验 问题 的 类 型 

这 个 问题 绝对 不 是 一 个 全 新 的 问题 ， 因 为 几乎 所 有 其 他 生产 厂家 都 会 遇 到 这 种 类 似 
的 问题 ， 而 且 他 们 也 都 试图 去 解决 过 。 但 是 这 个 问题 还 没有 完全 解决 ， 解 决 的 方法 仍 有 
很 大 的 改进 空间 。 因 此 ， 此 问题 处 于 混沌 不 清 的 状态 中 。 问 题 的 发 生 频 率 虽 然 不 是 极 高 ， 
但 也 相当 高 。 发 生 频率 每 周一 次 甚至 每 天 一 次 。 同 样 ， 由 于 耽误 生产 过 程 造 成 了 宝贵 的 
时 间 、 精 力 和 资源 的 损失 ， 该 问题 的 影响 肯定 属于 中 高 程度 的 影响 。 因 此 ， 可 将 这 个 问 
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题 确定 为 中 度 频率 和 中 度 影响 。 现 在 不 妨 分 析 一 下 前 面试 图 回答 的 几 个 疑问 ， 以 更 好 地 
了 解 问题 的 性 质 。 如 果 回 顾 第 1 章 的 内 容 , 就 会 发 现 这 里 试图 回答 的 几 个 疑问 指 的 是 “为 
什么 /如 何 ”一 一 这 表明 问题 的 性 质 最 初 属于 探查 性 的 。 

故而 可 以 得 出 结论 ， 这 个 问题 仍 处 在 混沌 不 清 的 状态 ， 需 要 通过 实验 去 探究 和 理解 
问题 。 此 外 ， 问 题 的 影响 和 频率 均 属 中 高 程度 ， 所 以 解决 这 个 问题 是 非常 有 价值 的 。 最 
后 ， 目 前 问题 的 性 质 为 探查 性 的 ， 故 要 采取 研究 取证 的 方法 去 解决 问题 并 找到 根本 原因 。 
随 着 问题 不 断 地 向 前 发 展 ， 从 解决 方案 中 挖掘 到 的 发 现 可 能 会 改变 问题 的 性 质 一 一 根据 
我 们 从 分 析 中 获得 的 洞 见 ， 问 题 可 能 会 从 探查 性 变 成 预测 性 甚至 规范 性 。 换 言 之 ， 此 时 
有 必要 继续 探 清 这 个 用 例 的 商业 背景 信息 。 

2. 收集 背景 信息 一 一 研究 和 收集 背景 信息 

为 了 更 好 地 解决 问题 ， 做 好 全 面 基础 的 研究 和 积累 有 关 问 题 的 扎实 背景 信息 举 足 轻 
重 。 对 公司 、 生 产 环 境 、 生 产 过 程 等 信息 掌握 得 越 多 ， 对 我 们 的 方法 和 解决 方案 就 越 有 
帮助 。 上 网 查阅 各 种 文章 并 观看 各 种 视频 ， 了 解 更 高 层次 的 流程 ， 以 及 与 厂 方 /工人 互动 
交流 运营 的 情况 等 ， 多 做 研究 对 问题 相关 的 信息 了 如 指 掌 。 引 领 读者 实际 操作 整个 研究 
流程 超出 了 本 书 讨论 的 范围 ， 但 是 本 书 会 通过 更 高 层次 的 流程 来 对 研究 方法 进行 讨论 。 

接 下 来 将 通过 探究 问题 中 显而易见 的 差距 ， 即 在 SCQ 框架 中 定义 的 冲突 ， 开 始 对 该 
例 进行 研究 。 这 个 冲突 引出 了 一 些 问题 需要 回答 。 

图 2.7 所 示 为 洗涤 剂 生产 质量 用 例 的 研究 和 背景 信息 收集 的 流程 作为 洗涤 剂 制造 质 
量 用 例 。 


es 


、 研 究 生产 过 程 中 面临 的 常见 问题 
冲突 《洗涤 剂 生产 过 程 中 造成 劣质 识别 生产 过 程 中 使 用 的 不 同 原料 
品 的 原因 未 明 | 


"了解 生 产 使 用 的 机 械 设备 


a | 生产 洗涤 剂 过 程 中 导致 劣质 | 
xz ME 


不 同 因素 有 此? UUDMURNUURROEAA 


“了 解 不 同 原料 对 产品 生产 的 不 同 影响 


研究 操作 环境 对 生产 过 程 的 影响 


研究 不 同 的 原料 供应 商 及 他 们 对 原料 的 质量 标准 


图 2.7 
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这 里 就 从 一 个 主要 的 疑问 开始 : 在 生产 洗涤 剂 的 环节 中 ， 导 致 劣质 品 产生 的 不 同 因 
素 有 哪些 ? 

为 了 回答 这 个 问题 ， 可 以 从 第 一 个 想到 的 领域 开始 研究 ， 也 就 是 研究 洗涤 剂 在 工业 
中 是 如 何 生产 的 。 当 粗略 了 解 了 这 个 过 程 后 ， 自 然而 然 地 就 会 想到 许多 需要 研究 的 邻接 
领域 。 比 如 调查 不 同 原料 对 最 终 产 品 的 影响 ， 研 究 在 生产 中 面临 的 常见 问题 ， 探 查 在 生 
产 过 程 中 用 机 械 设 备 的 信息 ， 深 入 了 解 原料 对 生产 的 影响 ， 查 明 在 整个 生产 过 程 中 操作 
环境 和 操作 参数 所 起 的 作用 ， 以 及 探寻 由 不 同 供应 商 供应 的 相同 的 原料 是 否 会 造成 问题 。 
当 对 不 同 的 主题 进行 更 多 的 探索 和 研究 时 ， 就 会 对 正在 努力 解决 的 问题 获得 更 深刻 和 更 
具体 的 理解 。 接 下 来 ， 假 设 下 面 的 研究 结果 。 

3. 研究 结果 

以 下 节选 的 内 容 十 分 简短 精练 。 但 是 ， 在 实际 研究 一 个 问题 时 ， 都 会 有 大 量 的 背景 
信息 并 给 出 所 有 问题 答案 。 

(1) 洗涤 剂 是 如 何 生产 出 来 的 ? 

下 面 内 容 详 述 了 一 种 通用 洗涤 剂 生产 过 程 。 在 大 型 工业 中 洗涤 剂 的 生产 方式 是 截然 
不 同 的 ， 由 于 一 些 显而易见 的 原因 ， 在 这 里 不 能 详细 阐述 。 

生产 洗涤 剂 分 为 4 个 简单 的 步骤 ， 皂 化 、 去 除 甘 油 、 提 纯 和 整理 。 皂 化 主要 涉及 用 
氢 氧 化 钠 加 热 动物 脂肪 和 油 。 然 后 把 所 得 溶液 里 的 甘油 去 除 ， 再 加 入 弱酸 将 溶液 纯化 。 
最 后 ， 通 过 成 团 、 喷 雾 干 燥 和 干 混 来 制备 洗涤 剂 粉 末 ， 并 将 防腐 剂 、 着 色 剂 和 香料 加 入 
到 粉末 中 。 

对 复杂 的 制造 过 程 的 理解 目前 可 以 抽象 为 一 个 较 高 的 层次 。 

(2) 洗涤 剂 生产 过 程 中 常见 的 问题 是 什么 ? 

在 生产 阶段 ， 总 会 出 现 各 种 各 样 的 问题 。 这 些 问 题 可 能 与 使 用 的 原料 或 机 械 设备 有 
关 ， 也 可 能 与 工厂 /地 点 或 生产 过 程 配方 ) 的 操作 条 件 有 关 。 

在 洗涤 剂 生产 的 用 例 中 ， 观 察 到 一 些 常见 问题 ， 比 如 过 热 、 原 料 比例 不 合理 、 原 料 
质量 差 、 工 厂 操作 条 件 不 合适 、 加 工 延 误 、 机 械 设 备 问题 (例如 ， 振 动 )、 不 洁 容 器 、 
操作 不 准确 等 。 所 有 这 些 问 题 以 及 一 些 潜在 的 问题 都 会 造成 最 终 产品 质量 差 。 

(3) 洗涤 剂 生产 过 程 中 使 用 什么 样 的 机 械 设备 ? 

生产 工厂 中 的 相关 生产 线 由 多 台 机 器 (例如 混合 机 、 搅 拌 机 等 ) 组成， 通过 传送 带 
相互 连接 。 机 器 处 理 原料 ， 然 后 将 物料 装 进 容器 中 用 传送 带 输送 给 另 一 台 机 器 。 洗 涤 
剂 生产 过 程 包括 4~5 个 阶段 ， 每 个 阶段 可 配 有 多 台 机 器 。 在 目前 的 情况 下 ， 可 以 假定 生 
产 过 程 中 的 每 个 阶段 只 配 有 一 台 机 器 。 请 参阅 图 2.8 从 更 高 层次 去 了 解 该 系统 概览 。 
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图 2.8 


不 同 的 原料 如 动物 脂肪 、 氧 氧化 钠 、 椰 子 油 等 装 进 不 一 样 的 容器 后 送 入 生产 过 程 。 
系统 自动 消耗 生产 所 需 的 原料 量 。 在 第 一 阶段 ， 这 些 原料 被 加 工 、 加 热 并 混合 形成 一 团 
混合 物 。 然 后 通过 传送 带 将 混合 物 输送 到 下 一 个 阶段 。 接 着 第 二 阶段 ， 机 器 处 理 混 合 物 


溶液 除去 甘油 。 这 时 将 盐 和 一 些 其 他 原料 加 入 溶液 中 分 离 出 甘油 。 而 在 第 三 阶段 ， 
弱酸 来 除去 残留 的 杂质 和 水 。 随 后 第 四 阶段 ， 机 器 为 所 生产 的 洗涤 剂 添加 防腐 剂 、 


添加 
香料 


和 其 他 所 需 物料 。 最 后 ， 到 了 第 五 阶段 ， 采 用 各 种 质量 参数 来 检验 洗涤 剂 。 如 果 产 品质 


量 保持 在 理想 的 水 平 ， 则 产品 被 送 去 包装 ， 否 则 被 丢弃 ， 然 后 从 头 开始 重新 生产 。 
(4) 需要 深入 了 解 公司 、 生 产 环境 和 运营 的 哪些 情况 ? 


这 家 洗涤 剂 公司 的 生产 工厂 遍布 全 球 ， 每 家 工厂 都 拥有 多 条 生产 线 。 工 厂 里 的 生产 
线 是 一 条 通过 不 同 的 机 器 传送 原料 并 最 终 交 付 制 成 品 的 流水 线 。 因 为 有 近 10 条 不 同 的 生 
产 线 ， 所 以 多 种 消费 品 都 在 同一 工厂 生产 。 假 设 其 中 一 家 工厂 位 于 印度 浦 那 ， 而 约翰 主 


管 洗 涤 剂 产品 汰 渍 的 业务 ， 并 且 负 责 公司 多 种 产品 的 生产 运营 。 约 翰 需 确保 及 时 4 


E 产 和 


交付 高 质量 的 产品 ， 降 低 运营 成 本 ， 以 及 降低 拒 收 率 。 然 而 ， 最 近 约翰 观察 到 ， 
洗涤 剂 的 质量 往往 低 于 可 接受 的 水 平 ， 工 厂 已 经 蒙受 了 巨大 的 损失 。 


E 产 的 
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2.2.3. ”根据 数据 可 用 性 对 假设 优先 排序 和 构建 


只 要 收集 了 足够 的 问题 背景 信息 ， 下 一 步 就 要 开始 构建 假设 。 要 像 一 个 团队 一 样 进 
行 思考 和 头脑 风暴 ， 挖 掘 所 有 可 能 有 用 的 因素 ， 帮 助 找 出 造成 低 质量 产品 的 原因 。 这 样 
的 头脑 风暴 会 议 可 以 由 3 个 或 更 多 的 人 员 参 加 。 首 先 将 所 有 想法 写 在 纸 上 或 白板 上 ， 把 
认为 可 能 是 造成 问题 的 一 个 个 潜在 原因 都 列 出 来 。 讨 论 了 一 会 之 后 ， 稍 事 休息 ， 努 力 消 
化 在 白板 上 列 出 的 围绕 所 列 想法 得 出 的 各 种 假设 ， 仔 细 思 考 这 些 假设 是 否 会 有 用 。 如 此 
三 番 五 次 之 后 ， 可 以 将 全 部 假设 中 最 重要 和 最 有 效 的 假设 汇集 归结 起 来 。 一 个 理想 的 假 
设 列表 应 该 是 相互 排斥 且 集中 详尽 的 ， 但 是 极 有 可 能 得 不 到 这 个 完美 无 缺 的 列表 。 不 过 
这 样 也 无 关 大 体 。 只 要 取得 了 一 个 相对 详尽 的 假设 列表 ， 接 下 来 就 可 以 分 析 已 列 出 的 每 
个 假设 的 重要 性 ， 再 根据 假设 的 重要 性 给 它 分 配 一 个 权重 /优先 级 。 一 旦 评估 和 优先 考虑 
所 有 的 假设 后 ， 就 需要 找 出 哪些 假设 可 以 用 现 有 的 数据 进行 验证 。 这 是 一 个 格外 重要 的 
步骤， 因为 如 果 针 对 这 个 问题 的 最 重要 的 假设 不 能 用 数据 来 验证 的 话 ， 许 多 问题 的 解决 
方法 就 会 无 限期 地 停顿 下 来 。 我 们 通过 研究 解决 方案 所 需 的 背景 信息 来 确定 问题 ， 构 建 
出 一 个 详尽 的 假设 列表 ， 却 由 于 缺乏 数据 而 无 法 验证 最 重要 的 假设 ， 这 种 情况 会 时 有 发 
生 。 在 这 种 情况 下 ， 验 证 其 余 不 太 重 要 的 假设 来 解决 问题 是 没有 任何 意义 的 ， 因 为 在 整 
幅 解决 方案 图 上 仍然 会 错过 许多 分 析 。 

如 果 有 数据 去 验证 一 大 堆 重 要 的 假设 ， 可 以 把 这 些 假 设 归 类 并 逐一 验证 。 在 某 些 情 
况 下 ， 结 果 可 能 是 违反 直觉 的 ， 但 是 仍然 需要 在 构思 最 后 的 解决 方案 时 考虑 这 些 结果 。 
对 于 当前 的 用 例 ， 本 书 会 在 第 3 章 “ 探 索性 决策 科学 在 物 联网 中 的 应 用 内 容 和 原因 ”中 
对 数据 进行 探索 。 因 此 ， 在 本 章 中 ， 只 是 为 这 些 假设 草拟 一 个 初始 列表 并 加 以 改进 〈 见 
图 2.9) 。 在 第 3 章 将 详细 讨论 可 用 假设 的 构建 和 优先 顺序 。 


原料 质量 差 降低 了 最 终 产品 质量 
生产 中 使 用 故障 机 械 设备 而 降低 了 最 终 产 品质 量 
-—' 使 用 不 洁 机 器 降低 了 产品 质量 
- 通 成 劣质 产品 的 因素 有 哪 昔 缚 ,机 器 操作 设置 不 正确 降低 了 产品 质量 
—— — 人们 供 应 商 变更 造成 产品 质量 低下 
机 器 运行 参数 不 正常 造成 劣质 产品 
质量 检测 时 校准 工具 不 准确 


原料 比例 不 准确 降低 了 最 终 产品 质量 
生产 过 程 中 操作 效率 低下 导致 质 产品 
中 间 操 作 之 间 的 延误 降低 了 产品 质量 


技能 低下 的 工人 造成 劣质 产品 
环境 因素 的 改变 造成 劣质 产品 
生产 的 洗涤 剂 超出 了 机 器 所 能 承受 的 范围 从 而 导致 劣质 产品 


图 2.9 


从 假设 列表 中 可 知 ， 团 队 举行 头脑 风暴 会 议 后 ， 对 于 问题 陈述 拟 出 了 一 个 较 高 层次 
的 假设 列表 ， 大 约 列 出 了 12 一 13 个 假设 。 这 些 假设 源 自 一 些 简单 的 想法 ， 比 如 和 操作 参 
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数 、 原 料 、 生 产 过 程 等 有 关 的 问题 、 工 人 问题 、 机 械 设备 问题 等 。 可 以 从 这 些 宽泛 的 想 
法 中 ， 列 出 一 些 假设 ， 而 这 些 假设 有 时 是 显而易见 的 ， 有 时 只 是 一 种 直觉 。 综 合 收集 所 
有 这 些 可 能 的 假设 ， 再 经 过 团队 有 理 有 据 地 推理 进行 筛选 ， 这 样 的 做 法 值得 称赞 。 

通常 ， 头 脑 风 暴 会 议 能 够 就 一 个 普通 的 问题 ， 收 集 到 与 问题 有 关 的 15 一 20 个 宽泛 的 
想法 或 原因 , 而 这 会 产生 50—60 个 各 种 各 样 的 假设 。 经 过 仔细 讨论 并 且 研 究 缩小 范围 后 ， 
可 能 会 找 出 20—30 个 具有 良好 建设 性 的 假设 。 最后， 在 对 数据 可 用 性 进行 优先 级 排序 和 
检查 之 后 ， 将 得 到 15—20 个 可 以 用 数据 验证 的 假设 。 而 从 最 终 确定 的 15 个 优先 考虑 的 
假设 中 ,会 出 现 5~6 个 已 经 确定 的 非常 重要 和 关键 的 假设 ， 这 些 假设 将 会 构成 解决 方案 
的 主要 部 分 。 


224 验证 和 改进 假设 (重复 步骤 (2) 和 (3) ) 


问题 解决 流程 中 的 下 一 个 逻辑 步骤 ， 根 据 一 致 同意 的 最 终 假 设 列表 开始 逐一 验证 假 
设 。 与 此 同时 对 数据 深入 研究 并 进行 各 种 分 析 检 验 和 检查 。 首 先 从 单 变量 分 析 开 始 ， 然 
后 进行 二 元 变量 分 析 ， 甚 至 多 元 变量 分 析 。 基 于 这 些 假设 ， 可 能 会 进行 一 些 统计 检验 / 候 
设 检 验 来 验证 这 种 研究 和 启发 法 〈 如 果 读 者 对 双 变量 、 单 变量 或 统计 检验 这 些 术语 并 不 
熟悉 ， 在 本 书 第 3 章 会 详细 讨论 ， 因 此 无 须 担 心 ) 。 在 分 析 过 程 中 ， 可 能 会 发 现 许多 违 
反 直 觉 的 结果 ， 有 时 也 要 更 新 最 初 对 于 研究 的 理解 ， 这 种 情况 时 有 发 生 。 这 样 会 让 我 们 
调整 现 有 的 假设 ， 并 且 在 某 些 情况 下 ， 甚 至 需要 增加 或 删除 一 些 假设 。 

通过 文字 描述 过 于 抽象 ， 也 让 事情 变 得 略微 难以 理解 。 为 了 更 好 地 理解 这 一 步 又 ， 
请 看 下 面 一 个 小 例子 。 假 设 我 们 的 问题 陈述 清晰 明确 ， 解 决 问题 的 研究 也 是 详尽 完整 的 
而 且 起 草 了 一 个 按 优先 顺序 排序 的 最 终 假 设 列 表 。 现 在 深入 研究 数据 ， 开 始 使 用 各 种 方 
法 进行 验证 。 假 如 正在 验证 这 个 假设 : 即 原料 质量 很 差 造成 最 终 产品 质量 欠 佳 。 这 个 假 
设 看 起 来 非常 明显 。 可 以 预料 到 ， 无 论 什 么 时 候 工 厂 生产 洗涤 剂 ， 原 料 质量 与 预期 质量 
不 一 臻 时， 最终 产 品 的 质量 总 是 很 差 。 但 是 ， 如 果 发 现 结果 完全 违反 直觉 呢 ? 这 可 能 是 
因为 研究 的 不 够 完整 ， 也 许 只 有 在 原料 质量 超出 了 可 接受 的 范围 时 ， 最 终 产品 的 质量 才 
会 受到 影响 。 也 可 能 是 考虑 的 质量 参数 不 够 详尽 ， 或 者 这 些 参数 可 能 不 是 检验 假设 的 有 
效 参数 。 任 何 原因 都 可 能 存在 ， 可 能 会 找到 答案 或 可 能 找 不 到 答案 。 在 分 析 过 程 中 会 经 
常 遇 到 这 种 情况 。 这 时 ， 要 暂停 分 析 探 索 数 据 / 假 设 检验 ， 而 回 到 最 初 的 基础 研究 。 通 过 
更 有 针对 性 地 研究 相关 特定 领域 ， 让 我 们 的 启发 法 焕然 一 新 。 经 过 一 番 研 究 ， 可 能 会 发 
现 ， 如 果 操 作 温度 低 于 特定 温度 ， 原 料 的 质量 就 变 得 十 分 重要 。 然 后 ， 调 整 假设 以 验证 
一 个 更 准确 的 假设 。 在 某 些 情况 下 ， 可 能 发 现 更 有 趣 的 信息 ， 有 时 就 会 添加 新 的 假设 ， 
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有 时 也 会 删除 既 有 的 假设 。 
总 而 言 之 ， 解 决 问题 流程 中 的 这 一 步骤 是 一 个 反 反复 复 的 过 程 ， 可 能 需要 多 次 迭代 
才能 获得 更 加 完善 和 精炼 的 假设 结果 。 


2.2.5 了 豚 收 结果 并 呈现 解决 方案 


理想 情况 下 ， 这 个 步骤 是 解决 问题 流程 中 的 最 后 一 步 。 在 很 多 情况 下 ， 一 个 全 新 的 
问题 得 以 确定 ， 并 且 分 析 的 进程 也 会 朝 着 一 个 新 的 方向 发 展 。 当 到 达 这 一 步 时 ， 会 对 所 
有 精炼 和 调整 后 的 假设 进行 检验 。 在 研究 和 背景 信息 收集 的 流程 基础 上 ， 启 发 法 和 判断 
在 此 时 将 会 得 出 一 个 更 具体 的 答案 。 但 是 ， 还 没有 解决 问题 ! 仍 需 要 综合 结果 来 呈现 故 
事 〈 即 解决 方案 ) ， 找 出 造成 劣质 洗涤 剂 的 原因 。 这 时 得 将 所 有 结果 一 一 罗列 到 白板 上 ， 
可 能 会 有 15—20 个 或 者 更 少 的 假设 与 结果 一 起 验证 。 这 些 结果 可 能 与 直觉 相反 或 者 并 不 
完整 ， 但 重要 的 是 要 把 它们 归 集 起 来 ， 了 解 一 个 结果 与 另 一 个 结果 是 如 何 相辅相成 的 ， 
探 明 造成 所 有 问题 的 根源 是 什么 。 下 面 将 介绍 如 何 形成 一 个 简单 的 方案 。 

以 下 示例 只 是 帮助 我 们 理解 的 一 个 例子 ， 并 不 一 定 适 用 于 任何 洗涤 剂 生产 公司 ， 其 
至 也 不 一 定 适 用 于 我 们 的 用 例 。 

生产 洗涤 剂 时 ， 最 终 产 品质 量 欠 佳 的 主要 原因 是 由 于 生产 工厂 的 操作 参数 不 合适 以 
及 环境 因素 不 适宜 。 超 载运 行 的 机 械 设备 无 法 产生 加 热 原料 所 需 的 温度 ， 混 合 机 的 转速 
(RPM) 下 降 20%， 从 而 导致 第 一 阶段 就 出 现 了 半 加 工 混合 物 溶液 。 如 果 两 种 最 重要 的 
原料 的 投入 量 有 变 ， 即 使 这 种 变化 很 小 ， 产 品质 量 也 会 深 受 影响 。 此 外 ， 如 果 来 自 不 同 
供应 商 的 相同 原料 在 投入 质量 参数 上 有 差异 ， 则 也 许 会 提高 最 终 产 品 的 质量 。 而 且 ， 当 
机 械 设备 超载 运行 时 , 生产 过 程 延迟 了 大 约 5% 的 时 间 , 并 且 导 致 不 恰当 的 中 间 解 决 方案 。 
因此 ， 可 以 得 出 结论 : 主要 是 因为 机 械 设 备 超载 运行 ， 造 成 操作 参数 不 准确 ， 从 而 
导致 了 洗涤 剂 生产 工厂 的 损失 。 同 样 ， 由 于 供应 商 各 异 ， 原 料 的 质量 差异 以 及 重要 原料 
投入 比例 的 偏差 ， 也 造成 洗涤 剂 质量 变 差 。 而 且 ， 也 可 断言 ， 在 生产 过 程 中 造成 劣质 产 
品 ， 工 人 在 其 中 起 的 作用 是 微乎其微 的 。 
描述 问题 汇总 结论 的 过 程 通常 枯燥 乏味 ， 在 大 多 数 情况 下 ， 需 要 仰赖 具备 精深 领域 
知识 的 业务 团队 的 意见 。 而 且 还 会 遇 到 不 少 情况 ， 即 一 些 结果 可 能 具有 统计 学 意义 ， 但 
可 能 并 不 具有 任何 商业 价值 。 有 的 团队 拥有 广泛 的 领域 知识 ， 也 可 以 帮助 更 有 效 地 起 草 
问题 的 结论 。 最 后 的 解决 方案 最 好 用 清晰 明确 的 文字 去 总 结 ， 回 答 在 上 一 部 分 SCQ 框架 
中 草拟 的 疑问 。 努力 将 解决 的 问题 的 最 终结 果 / 答 案 , 在 一 个 含有 解决 方案 的 SCQ 框架 中 
完整 体现 出 来 。 


第 2 章 物 联 网 问题 体系 研究 和 用 例 设 计 “41。 


23 感知 相关 的 潜在 问题 


现实 生活 中 的 问题 往往 不 是 孤立 存在 的 ， 这 些 问 题 大 多 与 其 他 多 个 问题 相互 关联 。 
决策 科学 也 不 例外 。 在 解决 决策 科学 问题 的 同时 ， 经 常会 发 现 ， 知 道 解决 与 之 关联 的 问 
题 比 当前 问题 更 为 重要 。 某 些 情况 下 ， 解 决 这 些 相关 的 问题 是 不 可 避免 的 。 在 这 种 情况 
下 ， 除 非 解决 了 那些 相关 的 问题 ， 否 则 将 无 法 实际 解决 当前 的 问题 。 

举 个 例子 来 更 透彻 地 理解 这 一 点 。 比 如 解决 问题 过 程 中 确定 生产 劣质 洗涤 剂 的 原因 
同时 推断 问题 的 根源 出 自 不 同 供应 商 的 原料 差异 ， 或 者 由 于 生产 厂家 的 劳动 力 不 足 〈 假 
设 ) 。 在 某 些 情况 下 ， 机 器 停机 或 效率 低下 也 是 造成 质量 问题 的 重要 原因 。 在 这 种 情形 
下 ， 经 常 要 解决 多 个 问题 ， 尽 管 刚 开始 解决 的 是 一 个 简单 的 问题 。 问 题 本 质 上 往往 是 相 
互 关 联 的 ， 要 解决 整个 问题 ， 可 能 需要 解决 多 个 问题 ， 从 而 形成 了 一 个 问题 体系 。 这 时 ， 
要 将 供应 商 管理 视 为 一 个 单独 的 问题 ， 将 劳动 力 优化 视 为 另 一 个 问题 。 在 现实 生活 中 ， 
也 面临 类 似 的 情况 。 在 许多 情况 下 ， 解 决 当 前 的 问题 可 能 并 没有 那么 重要 ， 因 为 一 个 更 
大 的 问题 会 被 确定 为 男 一 个 问题 。 

在 物 联网 的 核心 问题 中 ， 希 望 在 整 幅 解决 方案 图 内 感知 那些 与 之 相关 的 问题 变 得 异 
常 困难 ， 因 为 那些 问题 大 多 是 潜在 的 问题 。 因 此 ， 感 知 这 些 潜在 的 问题 以 确定 一 个 问题 
体系 无 疑 是 一 个 更 巨大 的 挑战 。 在 解决 物 联网 或 任何 其 他 问题 的 同时 ， 会 逐步 推进 ， 将 
一 个 较 大 的 问题 分 解 为 多 个 较 小 的 问题 ， 然 后 逐个 处 理 。 感 知 潜在 问题 是 解决 问题 流程 中 
最 具 挑 战 性 的 一 步 。 在 任何 解决 问题 的 过 程 中 ， 没 有 任何 预 设 规则 来 帮助 识别 相关 潜在 问 
题 。 简 单 地 说 ， 复 查 已 确定 的 最 终 假设 列表 大 有 神 益 。 对 于 在 启发 法 和 研究 基础 上 得 出 的 
假设 ， 要 仔细 甄别 其 细微 差别 ， 尤 其 是 在 验证 假设 时 所 得 结果 违反 了 直觉 的 情况 下 。 

这 些 领 域 可 以 作为 一 个 起 点 ， 以 便于 识别 出 与 问题 相关 的 潜在 问题 。 随 后 ， 要 对 数 
据 进行 广泛 深入 的 研究 ， 并 就 其 他 每 一 个 维度 进行 交叉 维度 分 析 ， 以 便 找 到 任何 与 问题 
既 相 关 又 令 人 感 兴趣 的 信息 。 从 干扰 中 识别 出 这 些 信息 需要 具备 精深 的 业务 和 领域 知识 。 

随后 将 在 第 7 章 “ 规 范 性 科学 与 决策 ”中 更 深入 地 探讨 这 个 话题 。 届 时 ， 读 者 学 习 
解决 了 足够 多 的 用 例 和 实验 ， 实 际 尝试 且 找 出 问题 发 出 的 潜在 信号 以 形成 一 幅 完 整 的 解 
决 方案 图 。 
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设计 用 于 启发 法 驱动 假设 和 数据 驱动 假设 的 框架 构成 了 问题 解决 框架 的 基础 。 问 题 
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和 问题 体系 的 整个 蓝图 可 以 在 这 一 单个 框架 中 展现 出 来 。 这 不 是 一 个 奇特 的 文件 或 任何 
复杂 的 工具 ， 而 只 是 一 种 通过 简单 而 直接 的 方式 来 构建 和 表示 解决 问题 的 方法 。 
这 个 框架 包含 3 个 部 分 : 
0 “启发 法 驱动 的 假设 矩阵 〈Heuristics-driven Hypotheses Matrix, HDH) 。 
ü ”数据 驱动 的 假设 矩阵 (Data-driven Hypotheses Matrix, DDH) 。 
口 HDH 和 DDH 两 者 的 融合 。 
前 面 讨论 的 假设 列表 ， 最 终 精 炼 出 来 的 假设 就 是 启发 法 驱动 的 假设 。 该 矩阵 赛 括 
了 对 假设 所 需 的 每 一 个 细节 。 它 有 助 于 根据 数据 可 用 性 和 其 他 结果 进行 优先 排序 和 过 
滤 假 设 ， 也 帮助 把 全 部 结果 集中 在 一 个 地 方 消化 ， 以 便 呈 现 一 个 完美 的 故事 〈 即 解决 
TR). RERA HDH 矩阵 填 得 满 满 当当 的 ， 故 事 泻 染 的 初始 部 分 就 能 变 得 无 比 顺利 和 
明确 。 

HDH 和 拢 阵 展现 了 问题 初始 部 分 的 整个 蓝图 。 但 是 , 随 着 问题 在 范围 和 性 质 上 的 演变 ， 
也 将 各 式 各 样 的 问题 不 断 地 添加 到 当前 问题 中 去 。 在 分 析 中 发 现 了 违反 直觉 的 结果 ， 因 
而 假设 也 随 之 演变 。 演变 后 得 出 的 假设 和 结果 全 部 都 列 到 DDH EREE, HDH 和 DDH 共 
同形 成 一 个 统一 的 结构 来 表示 和 解决 问题 。 接 下 来 的 步骤 以 及 识别 与 问题 相关 的 问题 和 
发 现 潜在 信号 ， 变 得 格外 清晰 更 加 易于 分 析 和 解决 。 
将 在 第 3 章 更 详细 地 探讨 DDH HEER DDH 和 HDH 两 者 的 融合 ， 届 时 会 将 数据 、 
假设 和 结果 集中 一 起 来 讨论 。 
图 2.10 是 HDH 的 一 个 示例 图 。 


El 
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启发 法 驱动 的 假设 矩 阵 


在 本 章 中 ， 详 细 探索 了 运营 互联 和 资产 互联 ， 进 而 掌握 了 物 联网 问题 体系 。 还 学 习 
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了 如 何 应 用 具体 的 例子 来 对 洗涤 剂 生产 问题 刨 根 问 底 ， 并 采用 问题 解决 框架 为 问题 设计 
一 个 蓝图 ， 从 而 设计 出 一 个 物 联网 商业 用 例 。 

通过 设计 SCQ 框架 ， 理 解 如 何 从 整体 上 解析 问题 ， 最 终 完成 了 学 习 。 还 研究 了 如 何 
确定 与 问题 相关 的 以 及 潜在 的 问题 ， 最 后 探讨 了 如 何 为 这 个 问题 设计 HDH BER. 
至 第 3 章 时 ， 将 选用 R 语言 去 解决 一 个 数据 集 的 商业 用 例 。 本 章 在 解析 问题 和 设计 
问题 的 过 程 中 所 讨论 的 全 部 背景 和 研究 ， 都 会 逐步 用 在 解决 这 个 用 例 上 。 


第 3 章 探索 性 决策 科学 在 物 联网 
中 的 应 用 内 容 和 原因 


任何 情况 下 ， 问 题 总 是 不 断 地 发 展 变化 的 ， 解 决 方案 亦 是 如 此 。 在 解决 问题 时 所 确定 
的 假设 ， 会 随 着 新 的 发 现 而 不 断 改进 ， 解 决 问题 的 方法 也 随 之 部 分 改变 或 完全 改变 。 因 而 
要 允许 解决 问题 的 方法 灵活 机 动 。 解 决 的 问题 往往 是 相互 关联 的 ， 一 个 大 问题 往往 是 由 多 
个 小 问题 组 成 的 一 个 网 络 。 这 些 较 小 的 问题 从 完全 不 同 的 领域 中 冒 出 来 ， 所 以 采用 的 方法 
要 能 够 适应 问题 多 样 性 的 情况 。 不 仅 如 此 ， 解 决 方案 根据 问题 情况 采用 的 方法 凶 然 不 同 。 
既 可 使 用 自 上 而 下 ， 也 可 以 是 自 下 而 上 或 各 种 方法 混合 应 用 的 方法 。 因 此 ， 解 决 方案 要 灵 
活 机 动 。 最 后 ， 问 题 也 可 能 会 发 展 成 一 个 庞大 的 规模 ， 所 以 解决 方案 也 需 具有 可 调 性 。 

本 章 将 着 力 解决 第 2 章 “ 物 联网 问题 体系 研究 和 用 例 设 计 ” 中 解析 的 商业 问题 。 后 
续 将 采用 洗涤 剂 生产 公司 一 个 已 经 屏蔽 和 加 密 后 的 数据 集 来 解决 这 个 问题 。 首 先 从 了 解 
数据 开始 ， 然 后 尝试 回答 “是 什么 和 为 什么 ”的 问题 ， 即 描述 性 分 析 和 探查 性 分 析 。 在 
分 析 的 过 程 中 ， 可 能 会 发 现 之 前 没有 考虑 到 的 反 直 觉 结果 和 潜在 模式 。 这 时 需要 考虑 新 
的 洞 见 ， 随 时 将 新 发 现 补充 到 解决 方案 中 去 ， 更 加 灵活 机 动 地 运用 解决 方法 。 本 书 会 在 
第 4 章 中 介绍 “ 何 时 ”的 问题 ， 即 预测 性 分 析 。 

本 章 涵盖 了 以 下 内 容 : 
Q “识别 有 用 数据 做 出 决策 〈 描 述 性 统计 ) 。 
通过 数据 探索 物 联网 生态 系统 的 每 个 维度 〈 单 变量 分 析 ) o 
研究 各 种 关系 〈 双 变量 分 析 、 相 关 分 析 和 其 他 统计 方法 ) 。 
探索 性 数据 分 析 。 
根本 原因 分 析 。 

在 本 章 的 最 后 ， 将 深入 探索 和 研究 这 些 数据 ， 回 答 “ 是 什么 和 为 什么 ”这 两 个 问题 ， 
同时 呈现 描述 性 分 析 和 探查 性 分 析 。 而 且 也 会 草拟 出 数据 驱动 的 假设 (DDH) EERE 
个 示例 ， 改 进 以 前 设计 的 启发 法 驱动 的 假设 CHDBD. o 


口 口 口 口 


3.1 识别 有 用 数据 做 出 决策 


首先 , 在 深入 挖掘 数据 和 分 析 阶 段 之 前 ,需要 将 有 用 数据 从 数据 中 识别 出 来 。 在 第 2 
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章 中 ， 设 计 了 启发 法 驱动 假设 CHDED ， 同 时 解析 了 问题 。 现 在 要 复查 和 探索 这 个 列表 ， 
了 解 是 否 准备 好 了 采用 这 些 数据 来 解决 问题 。 通 过 检查 和 验证 所 确定 的 假设 数据 源 ， 就 
可 以 达到 这 个 目标 。 如 果 没 有 数据 来 证 明 /反驳 大 多 数 重要 的 假设 ， 那 么 继续 采用 目前 的 
方法 将 不 会 增加 任何 价值 。 拥 有 了 数据 之 后 ， 即 可 着 手 编写 代码 去 拟 出 解决 方案 。 


3.1.1 查验 假设 的 数据 来 源 


从 第 2 章 的 “2.2.3 根据 数据 可 用 性 对 假设 优先 排序 和 构建 ”小 节 可 以 看 到 , 已 经 列 出 了 
几 个 假设 ， 这 些 假设 可 能 会 是 挖掘 出 《有 用 ) 洞 见 的 潜在 领域 。 这 个 假设 列表 如 图 3.1 所 示 。 


1 终 产品 
环境 因素 的 改变 造成 劣质 产品 ， 原料 质量 差 降低 了 最 终 产品 质量 


生产 过 程 中 操作 效率 低下 导致 劣质 产品 使 用 不 洁 机 器 降低 了 产品 质量 


中 间 操 作 之 间 的 延误 降低 了 产品 质量 生产 中 使 用 故障 机 械 设备 而 降低 了 最 终 产品 质量 


[ 玫 成 产品 质量 炙 佳 的 因素 有 哪些 ? |) 
技能 低下 的 工人 造成 劣质 产品 机 器 操作 设置 不 正确 降低 了 产品 质量 


原料 比例 不 准确 降低 了 最 终 产品 质量 机 器 运行 参数 不 正常 造成 劣质 产品 
生产 的 洗涤 剂 超 出 了 机 器 所 能 承受 的 范围 从 而 导致 劣质 产品 质量 检测 时 校准 工具 不 准确 


“原料 供应 商 变更 造成 产品 质量 低下 


图 3.1 


假设 列表 包括 原料 使 用 比例 不 正确 、 操 作 效率 低下 、 中 间 操 作 之 间 发 生 延 误 、 工 人 
技能 、 环 境 条 件 、 机 器 运行 能 力 、 原 料 质量 、 机 器 故障 、 机 器 清洁 度 、 机 器 操作 配置 、 
原料 供应 商情 况 、 操 作 参数 和 与 工具 校准 相关 的 主题 。 下 面 从 更 高 层次 去 快速 探究 数据 ， 
看 看 是 否 对 利用 这 些 数 据 来 分 析 和 验证 假设 胸有成竹 。 

如 果 读 者 注册 了 帕克 特 出 版 有 限 公司 的 网 站 账号 ， 登 录 后 可 从 他 们 的 存储 库 中 下 载 
本 章 数据 。 里 面 提供 了 一 个 电子 表格 ， 其 中 包含 数据 集中 每 列 的 元 数据 ， 供 读者 参考 。 
在 下 载 数据 之 前 ， 先 要 分 析 清楚 需 用 到 哪些 不 同类 型 的 数据 。 答 案 总 是 “ 越 多 越 好 ”， 
但 是 根据 解决 方案 设计 ， 至 少 应 该 识别 出 一 些 对 解决 问题 比较 重要 的 领域 。 

如 同 从 假设 中 看 到 的 ， 希 望 数 据 能 够 为 下 述 内 容 提供 所 需 的 信息 。 

口 原料 比例 /数量 /质量 的 数据 : 这 些 数据 涉及 使 用 了 哪些 不 同 的 原料 , 使 用 了 多 少 ， 

以 及 是 否 过 量 使 用 。 此 外 ， 检 测 原 料 质量 所 采用 的 全 部 重要 参数 及 其 所 产生 数 
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据 有 哪些 。 

操作 数据 : 提供 生产 过 程 中 的 延迟 、 超 时 或 丢失 等 与 生产 过 程 相关 的 数据 。 
技术 员 技能 数据 :提供 负责 处 理 生 产 过 程 的 工人 /技术 人 员 的 相关 技能 数据 。 
机 器 配置 和 校准 数据 ;生产 过 程 中 机 器 配置 和 校准 设置 的 数据 采集 。 

供应 商 数据 : 有 关 各 原料 供应 商 信息 的 数据 。 

口 ”其 他 数据 源 : 关于 环境 条 件 的 信息 ， 外 部 数据 对 当前 问题 解决 也 会 有 帮助 。 


O +s. 


读者 可 以 浏览 包含 用 例 元 数据 的 csv 文件 。 


接着 来 查看 这 些 数据 ， 探 索 可 用 的 数据 源 ， 查 验 数 据 的 可 用 程度 。 这 些 数 据 提供 了 
1000 条 记录 ,代表 了 1000 个 生产 过 程 。 每 一 行 的 数据 对 应 一 个 生产 订单 ， 为 一 个 完整 的 
批 次 数据 。 在 洗涤 剂 生产 行业 中 ， 最 终 产品 都 是 批量 生产 ， 后 来 再 分 成 小 包装 。 一 个 生 
产 订单 / 批 次 可 能 有 1000 千克 的 洗涤 剂 或 甚至 更 多 。 整个 批 次 用 一 行 数据 来 表示 , 提供 生 
产 过 程 所 有 数据 维度 的 信息 。 

那么 ， 这 些 数据 提供 了 什么 维度 的 信息 ? 

OQ “最终 产 品 相关 信息 : 产品 ID、 产 品名 称 、 产 品 需求 量 和 成 品质 量 参数 (A 个 不 

同 的 参数 ) 。 

Q “生产 环境 信息 : 有 关 地 点 和 位 置 、 流 水 线 和 已 用 资源 的 详细 信息 。 

Q 原料 数据 :生产 过 程 中 每 个 阶段 的 原料 及 其 质量 参数 的 详细 信息 。 

D ”操作 数据 : 关于 加 工时 间 、 加 工 阶段 、 不 同 阶 段 延 迟 的 指标 、 原 料 消耗 量 、 每 

个 阶段 /时 期 层级 的 质量 参数 数据 , 每 个 阶段 /时 期 层级 的 加 工时 间 等 的 生产 过 程 
数据 。 


O xs. 


这 个 列表 看 起 来 十 分 完美 ! 可 是 ， 有 没有 遗漏 了 什么 ? 
3.1.2 ”解决 问题 时 的 数据 探查 工作 


虽然 获得 了 相当 数量 的 数据 可 用 于 继续 分 析 ， 但 是 确实 遗漏 了 原料 供应 商 、 技 术 人 
员 技 能 和 机 器 配置 数据 等 相关 信息 。 可 是 ， 现 有 的 假设 列表 早 塞 得 满 满 当当 的 了 ， 这 些 
假设 已 足以 帮助 开始 着 手 分 析 。 这 时 利用 既 有 数据 ， 可 以 尝试 去 证 明 60% 以 上 已 形成 的 
假设 中 ， 其 中 大 多 数 都 极 具 影响 力 〈 具 有 高 优先 级 ) 。 有 关 环境 条 件 和 其 他 事件 的 外 部 
数据 可 以 从 互联 网 上 获取 ， 以 便 了 解 更 多 具体 情况 。 不 妨 暂 将 这 些 想法 留 着 以 备 后 用 ， 


口 口 口 口 
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这 时 先 开 始 深入 研究 数据 。 

那么 ， 在 前 面 提 到 的 每 个 数据 源 中 都 包含 了 哪些 维度 的 信息 ? 

1. 最 终 产 品 相 关 信 息 

此 处 用 例 的 最 终 产 品 (假设 ) 是 一 种 洗衣 粉 ， 即 汰 渍 。 相 关 的 数据 源 提 供 了 一 些 信 
息 , 比如 应 该 生产 多 少 千克 洗衣 粉 , 还 有 洗衣 粉 的 4 个 不 同 最 终 质 量 参数 ( 即 质量 参数 1、 
2、3 和 4) 。 这 些 质 量 参数 决定 了 最 终 产 品 为 良品 或 不 良品 ， 从 而 决定 产品 为 合格 或 不 
合格 。 

2. 生产 环境 信息 

这 里 的 信息 包括 工厂 在 生产 过 程 中 使 用 的 各 种 机 械 设 备 ， 以 及 它们 经 常 在 不 同 的 时 
间 使 用 相同 的 资源 /流水 线 生 产 不 同 的 产品 。 而 且 还 包括 在 生产 过 程 中 发 出 的 一 个 提示 
(flag) ， 让 人 注意 到 在 资源 或 机 器 中 生产 过 的 先前 产品 是 一 样 的 还 是 不 一 样 的 。 同 样 ， 
数据 源 还 提供 在 生产 过 程 中 每 个 阶段 的 加 工时 间 (产品 的 生产 通常 有 5~6 个 阶段 或 
时 期 ) 。 

3， 原 料 数据 信息 

提供 所 用 原料 、 生 产 过 程 之 前 的 质量 参数 以 及 中 间 质 量 参数 的 详细 信息 。 假 设 在 第 
一 阶段 ， 两 种 原料 混合 并 加 工 形成 一 种 混合 物料 ， 然 后 将 混合 物料 与 一 种 或 两 种 其 他 新 
原料 一 起 传送 到 第 二 阶段 。 接 着 ， 在 生产 过 程 之 前 对 每 种 单一 原料 检测 并 记录 质量 参数 ， 
同样 地 每 个 阶段 混合 物料 后 也 需 如 此 。 另 外 ， 还 记录 了 各 个 生产 阶段 所 需 原料 的 数量 / 比 
例 和 原料 的 实际 消耗 量 。 

4. 操作 数据 信息 

操作 数据 提供 了 在 每 个 阶段 /时 期 中 加 工 所 需 的 时 间 信 息 。 记 录 了 每 个 阶段 中 不 同 加 
工 阶段 和 延迟 指标 的 单独 详情 。 在 每 个 阶段 ， 应 该 按照 预 设 的 配方 消耗 规定 量 的 原料 。 
有 时 这 些 数量 会 被 操作 员 / 技 术 人 员 所 忽略 。 还 详细 提供 了 每 种 单一 原料 的 预 估 消 耗 量 、 
实际 消耗 量 以 及 可 接受 的 浮动 范围 的 信息 。 
至 此 对 数据 的 维度 已 一 清二 楚 ， 下 面 进一步 去 解决 问题 。 
为 了 研究 哪些 因素 影响 了 洗涤 剂 的 成 品质 量 ， 尝 试探 究 整 个 数据 维度 的 全 貌 。 稍 后 
将 采用 免费 的 R 语言 和 集成 开发 环境 RStudio 来 处 理 和 可 视 化 数据 ， 这 两 者 可 用 于 各 种 
UNIX 平台 、Windows 和 Mac OS 系统 。 对 共同 结果 的 解释 与 代码 无 关 。 如 果 读 者 在 技术 
上 不 熟悉 编程 ， 则 只 需 阅 读 代码 或 跳 过 代码 直接 转 到 结果 以 理解 步骤 。 读 者 不 会 因此 错 
过 解决 问题 和 结果 解释 步骤 的 任何 细节 。 


首先 ， 
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导入 数据 ， 全 方面 地 探索 数据 集 。 


数据 可 直接 从 作者 (为 本 书 创建 ) 的 公共 存储 库 下 载 ， 或 者 通过 从 帕克 特 出 版 有 限 
公司 的 存储 库 下 载 csv 文件 。 为 了 方便 起 见 ， 这 里 通过 直接 的 公共 存储 库 链 接 来 获取 数据 : 
#Read data 


( 读 取 数据 ) 


url<-— 


"https://github.com/jojo62000/Smarter Decisions/raw/master/Chapter$203 
/Data/BO5341 IoTData.csv" 


data«-read.csv (url) 


fCheck the dimensions of the dataset 


(检查 数据 集 的 维度 ) 


#Result 
(结果 ) 


> dim(data) 
[1] 1000 122 


> colnames (data) [1:20] 


[1] 
[3] 
[5] 
[7] 
[9] 
[11] 
[13] 
[15] 
[17] 
[19] 


"x" 
"Product ID" 

"Output QualityParameterl" 
"Product Name" 

"Output QualityParameter3" 
"ManufacturingOrder ID" 
"Order Quantity" 

"Site location" 
"Manufacturing EndDate" 
"Manufacturing EndTS" 


"Product Qty Unit" 
"Production Start Time" 
"Material ID" 

"Output QualityParameter2" 
"Output QualityParameter4" 
"AssemblyLine ID" 
"Produced Quantity" 
"Manufacturing StartDate" 
"Manufacturing StartTS" 


"Total Manufacturing Time mins" 


数据 导入 软件 后 ， 可 检查 数据 集 的 大 小 或 维度 。 数 据 集 显示 为 1000X122， 这 表明 数 
HA 1000 行 和 122 JJ. 另外， 通过 查看 数据 中 前 20 列 的 名 称 ， 可 看 到 Product ID (产品 
ID) 和 Product Name (产品 名 称 ) Output Quality Parameters (成 品质 量 参数 ) 以 及 其 


他 一 些 与 4 


产 加 了 


[相关 的 列 。 为 了 查 明 数 据 是 如 何 组 成 的 ， 这 时 要 去 探索 每 一 列 的 内 容 : 
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O 注意: 


由 于 列 数 非 常 高 (>100 ) ， 此 处 将 采用 一 小 块 数据 (一 次 20 列 ) 来 探索 数据 。 同 时 


也 可 到 互联 网 上 免费 获取 一 些 及 语言 软件 包 。 如 果 要 在 及 语言 中 安装 新 软件 包 ， 请 执行 
以 下 命令 : 


> e.g. install .packages ("package-name") 


O 注意， 


0 


安装 完成 后 ， 可 用 'library' 命 令 将 软件 包 加 载 到 内 存 中 : 


>library (package-name) 


> library (dplyr) 
> glimpse (data[1:20]) 


Observations: 1,000 Variables: 20 $ X (int) 1, 2, 3, 4, 5, 6, 7, 8, 9,... $ 
Product Qty Unit (fctr) KG, KG, KG, KG, KG, KG, KG... $ Product ID (fctr) 
Product 0407, Product 040... $ Production Start Time (int) 40656, 201026, 
81616, 202857,.. $ Output QualityParameterl (dbl) 380.0000, 391.0821, 
386.162,... $ Material ID (int) 1234, 1234, 1234, 1234, 1234... $ 
Product Name (fctr) Tide Plus Oxi, Tide Plus Ox... $ 

Output QualityParameter2 (dbl) 15625.00, 14202.98, 16356.87,.. $ 
Output QualityParameter3 (dbl) 39000.00, 36257.61, 39566.61,. $ 

Output QualityParameter4 (dbl) 7550.000, 7151.502, 8368.513,. $ 
ManufacturingOrder ID (int) 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,. $ 
AssemblyLine ID (fctr) Line 2, Line 2, Line 2, Line.. $ Order Quantity 
(int) 3800, 3800, 3800, 3800, 3800,. $ Produced Quantity (dbl) 0, 3140, 0, 
3800, 0, 4142,... $ Site location (fctr) Pune, Pune, Pune, Pune, P... $ 
Manufacturing StartDate (fctr) 20-02-2014 00:00, 24-02-201... $ 
Manufacturing EndDate (fctr) 20-02-2014 00:00, 25-02-20... $ 
Manufacturing StartTS (fctr) 20-02-2014 04:06, 24-02-20... $ 
Manufacturing EndTS (fctr) 20-02-2014 10:06, 25-02-201.. $ 

Total Manufacturing Time mins (int) 360, 1080, 180, 360, 240,... 


接着 将 在 及 语言 中 选用 一 个 名 为 dplyr 的 特殊 软件 包 , 毫 不 费力 地 完成 这 些 数据 工程 


步骤 。dplyr 软件 包 中 的 glimpse 命令 可 帮助 深入 查看 数据 集 。 在 这 里 开始 探索 前 20 列 的 
内 容 ， 努 力 地 将 数据 理解 透彻 。 
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第 1 列 的 X 是 一 个 整数 变量 和 一 个 序列 号 。 下 面 来 验证 这 一 点 : 
> length (unique (data$X)) 4 counting the number of unique values (计算 唯一 


值 的 数目 ) 
[1] 1000 


确实 是 有 1000 行 数据 ， 而 unique 函数 求 出 该 列 的 数据 点 计数 也 是 1000。 

Product Qty Unit ( 即 产品 数量 单位 ) 表示 产品 ( 即 生产 的 洗涤 剂 ) 数量 的 测量 单位 。 
下 面 来 看 看 采用 了 哪些 不 同 的 单位 来 测量 产品 的 数量 : 

> unique (data$Product Qty Unit) 

[1] KG 

Levels: KG 


上 述 代码 求 出 该 列 的 值 只 有 一 个 ， 因 此 可 得 出 结论 ， 所 有 记录 产品 生产 量 的 计量 单 
位 都 是 相同 的 。 

Product ID 和 Material ID 是 工厂 生产 的 每 个 产品 的 唯一 标识 ， 可 查看 数据 集 里 不 同 
数量 的 产品 。 但 是 ， 在 本 用 例 的 数据 集 里 只 有 一 种 材料 和 一 种 产品 的 数据 。 假 设 产品 是 
Apple iPhone 6$S， 材 料 是 iPhone 6S 64 GB。 在 本 用 例 中 ， 材 料 Tide Plus Oxi 是 产品 汰 渍 
的 一 种 洗衣 粉 变 体 。 以 下 代码 可 探查 数据 中 Product ID 和 Material ID 的 不 同 计数 ， 并 可 
查看 相应 的 值 ; 


> length (unique (data$Product ID) ) 
[21] f 

> length(unique(data$Material ID)) 
[1] 1 

> length (unique (data$Product Name)) 
[i 1 

> unique (data$Product Name) 

[1] Tide Plus Oxi 

Levels: Tide Plus Oxi 


Output. Quality Parameter〈 即 成 品质 量 参数 ) 1 一 4 列 记 录 了 产品 的 最 终 成 品质 量 。 
些 参数 共同 决定 最 终 产 品 是 合格 还 是 不 合格 。 为 了 解决 问题 ， 接 着 就 来 探究 成 品质 量 
各 项 参数 。 
以 下 代码 使 用 sunmmary 命令 给 出 了 4 个 列 的 分 位 数 分 布 摘要 信息 : 
> summary (data$Output QualityParameterl) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 


m s 
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368.6 390.5 421.1 414.3 437.5 478.4 
> summary (data$Output QualityParameter2) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
12130 14330 15220 15280 16110 20800 
> summary (data$Output QualityParameter3) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
29220 35020 37150 37320 39650 48000 
> summary (data$Output QualityParameter4) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
5725 7550 8012 8029 8485 10600 


如 上 所 示 , 全 部 4 个 参数 在 范围 、 数 值 和 分 布 方面 完全 不 同 。 Output Quality Parameter 
1 (成 品质 量 参数 1) 的 数值 大 部 分 落 在 350—500, Tfj Output Quality Parameter 2 (成 品质 
量 参数 2) 的 范围 则 是 从 12000 到 25000 不 等 ， 其 他 参数 依 此 类 推 。 

ManufacturingOrder ID 〈 即 生产 订单 ID ) 表示 用 于 每 个 生产 订单 的 一 个 唯一 键 值 (a 
unique key) 。 此 处 的 数据 表明 一 行 数据 即 代 表 一 个 生产 订单 。 

AssemblyLine ID〈 即 生产 线 ID) 表示 在 哪 条 生产 线 上 生产 的 产品 。 一 般 而 言 ， 在 任 
何 一 个 生产 车 间 里 ， 都 会 有 多 条 生产 多 种 产品 的 生产 线 。 在 这 里 ， 从 下 面 代码 可 看 到 ， 
有 两 条 用 于 生产 的 不 同 生产 线 ， 即 Line 1 和 Line 2: 

> unique (data$AssemblyLine ID) 

[1] Line 2 Line 1 


Levels: Line 1 Line 2 

Order Quantity (订单 量 ) 和 Produced Quantity〈 生 产量 ) 表明 订单 的 需求 量 和 实际 
生产 量 。 下 面 看 看 这 两 者 数量 是 否 总 是 完全 相同 或 总 是 截然 不 同 : 

> summary (data$Order Quantity) 


Min. 1st Qu. Median Mean 3rd Qu. Max.? 
0 5000 5000 4983 5600 5600 


> summary (data$Produced Quantity) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
0 4980 5280 5171 5757 8064 


»4Let's summarize the absolute difference between the two 


? Min. CRAME), Ist Qu. (第 一 四 分 位 数 )、Median (中 位 数 )、Mean (均值 )、3rd Qu. 【第 三 四 分 位 数 ) 以 及 Max.〈 最 大 
值 )。 一 一 译 者 注 


第 3 章 探索 性 决策 科学 在 物 联网 中 的 应 用 内 容 和 原 


Ds 


. 53. 


(这 里 来 总 结 两 者 的 绝对 差 值 ) 

> summary (abs (data$Produced Quantity - data$Order Quantity)) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
0.0 89.6 201.6 344.8 336.0 5600.0 


上 述 代码 给 出 了 Order Quantity. Produced Quantity 的 摘要 〈 即 分 位 数 分 布 ) 信息 ， 
以 及 这 两 者 绝对 差 值 。 在 大 多 数 情 况 下 ，order quantity 订单 需求 量 大 约 是 5000 千克 〈 请 
参阅 order quantity 摘要 中 的 中 位 数 ) ， 但 是 生产 量 处 处 相差 很 小 。 生 产量 和 需求 量 的 绝 
对 差 值 摘要 显示 为 一 个 平均 数 ， 约 为 345， 而 中 位 数 即 第 50 百 分 位 数 则 约 为 200， 这 表 
明 在 大 多 数 情况 下 ， 需 求 量 和 生产 量 之 间 肯 定 存在 差异 。 
Site location〔 即 生产 地 点 ) 提供 了 生产 产品 的 工厂 地 点 。 在 这 里 的 用 例 中 ， 只 有 一 
个 工厂 地 点 的 数据 (因为 该 运营 负责 人 只 负责 一 个 地 点 的 生产 ): 


> unique(data$Site location) 
[1] Pune 
Levels: Pune 


Manufacturing StartDate, Manufacturing EndDate, Manufacturing StartTS 和 Manufacturing - 
EndTS 分 别 记 录 每 个 生产 订单 的 开始 日 期 、 结 束 日 期 、 开 始 时 间 戳 和 结束 时 间 戳 。 
Total Manufacturing Time mins 则 以 分 钟 为 单位 记录 总 加 工时 间 。 

> summary(data$Total Manufacturing Time mins) 


Min. ist Qu. Median Mean 3rd Qu. Max. 
0.0 180.0 240.0 257.8 240.0 2880.0 


从 加 工时 间 的 分 布 来 看 ， 很 容易 地 发 现 异常 值 ( 第 三 四 分 位 数 与 最 大 值 之 间 的 巨大 
差 值 ) ， 因 此 需要 分 别处 理 。 可 能 有 一 些 异常 数据 点 的 加 工时 间 为 0。 
快速 浏览 了 以 上 数据 集 的 前 20 列 之 后 ， 接 着 查看 下 一 个 20 列 的 数据 : 


> colnames (data) [21:45] 


[1] "Stagel PrevProduct" "Stagel DelayFlag" 

[3] "Stagel ProcessingTime mins"  "Stagel RM1 QParameter2" 
[5] "Stagel RM1 QParameterl" "Stagel RM2 QParameter2" 
[7] "Stagel RM2 QParameterl" "Stagel RM2 RequiredQty" 
[9] "Stagel RM2 ConsumedQty" "Stagel RM2 ToleranceQty" 


[11] "Stagel ProductChange Flag" "Stagel QP1 Low" 
[13] "Stagel QP1 Actual" "Stagel QP1 High" 
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[15] "Stagel QP2 Low" "Stagel QP2 Actual" 
[17] "Stagel QP2 High" "Stagel QP3 Low" 

[19] "Stagel QP3 Actual" "Stagel QP3 High" 
[21] "Stagel QP4 Low" "Stagel QP4 Actual" 
[23] "Stagel QP4 High" "Stagel ResourceName" 


[25] "Stage2 DelayFlag" 


在 探索 接 下 来 的 25 个 列 时 ， 会 看 到 这 些 列 提 供 了 更 多 阶段 层级 上 的 详情 。 第 一 阶段 
的 所 有 属性 都 以 Stagel 作为 后 级 。 如 果 查 看 前 面 全 部 的 列 ， 就 能 清晰 地 发 现在 目前 的 产 
品 生产 过 程 中 ， 恰 好 包含 有 5 个 阶段 

> #Identify the distinct Stages present in the data 

〈 识 别 数据 中 的 各 个 不 同 阶段 ) 

> unique (substring (colnames (data) [grep ("Stage",colnames (data))],1, 6) 

[1] "Stagel" "Stage2" "Stage3" "Stage4" "Stage5" 


上 述 代码 首先 从 以 Stage 和 名 称 中 的 前 6 个 字符 开头 的 列 名 中 提取 索引 , 最 后 再 检查 
那些 唯一 索引 。 

在 阶段 1 (Stage 1) 中 ，Stagel DelayFlag ( 即 阶段 1 延迟 提示 ) 表明 生产 过 程 中 阶 
段 1 是否 有 延迟 。 同 样 ，Stagel ProductChange Flag ( 即 阶段 1 产品 变化 提示 ) 表示 生产 
过 程 中 产品 是 否 发 生 了 变化 ， 即 同一 台 机 器 上 生产 的 先前 产品 是 否 不 相同 或 是 否 相同 : 

> unique(data$Stagel DelayFlag) 

[1] No Yes B 


Levels: No Yes 


> unique(data$Stagel ProductChange Flag) 
[1] No Yes 
Levels: No Yes 


Stagel RMI QParameterl ( 即 阶段 1 原料 1 质量 参数 1) 提供 第 一 阶段 中 采用 的 第 一 
种 原料 的 第 一 个 质量 参数 的 一 些 值 。 

以 上 的 命名 规则 相当 简单 ， 即 按照 Stage-x 的 形式 进行 命名 。 这 里 ，x 表示 加 工 的 阶 
段 ， 可 以 是 1~5 的 任何 值 。RM 代表 原料 ，RMI 代表 原料 1 等 。QParameterl 表示 质量 
参数 ，1 表示 第 一 个 。 因 此 ，Stagel RMI QParameterl 表示 第 一 阶段 中 采用 的 第 一 种 原 
材料 的 第 一 个 质量 参数 。 同 样 地 ，Stagel RMI QParameter2 表示 在 第 一 阶段 中 采用 的 第 
一 种 原材料 的 第 二 个 质量 参数 。 在 特定 阶段 ， 可 以 采用 多 种 原料 ， 并 且 这 些 原料 都 可 以 
各 有 多 个 质量 参数 。 


js 
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而 Stagel QP2 Low ( 即 阶段 1 质量 参数 2 下 限 ) 说 明 阶 段 1 中 合成 混合 物 的 第 二 个 
质量 参数 。Low (CFR) . High (上 限 ) 和 Actul (实际 ) 分 别 表示 每 个 参数 的 相应 值 。 
Low 表示 控制 下 限 ，High 表示 控制 上 限 ， 而 Actual 表示 合成 混合 物质 量 检验 的 实际 值 。 

同样 地 ，Stagel RM2 ConsumedQty 〈 即 阶段 1 原料 2 消耗 量 ) 表示 阶段 1 原料 2 的 
消耗 数量 ， 并 且 Stagel RM2_RequiredQty《〈 即 阶段 1 原料 2 需求 量 ) 指明 了 相应 原料 的 
需求 量 。 在 每 个 阶段 ， 每 种 原料 都 设 定 有 各 不 相同 的 消耗 量 以 及 可 接受 的 浮动 范围 。 每 
种 原料 的 需求 量 、 消 耗 量 和 可 接受 范围 也 可 能 有 或 者 可 能 没有 。 

Stagel PrevProduct 〈 即 阶段 1 先前 产品 ) 提供 了 前 一 个 生产 订单 中 在 机 器 上 生产 的 
先前 产品 , 并 且 Stagel ResourceName 表明 了 在 阶段 1 生产 过 程 中 采用 了 哪些 资源 /机 器 。 

阶段 2 至 阶段 S 也 采用 了 上 述 同样 的 命名 规则 。 

下 面 详细 探讨 更 多 阶段 1 的 信息 : 

> summary(data$Stagel RM1 QParameterl) 

Min. ist Qu. Median Mean 3rd Qu. Max. 
3765 4267 4275 4275 4319 4932 

» summary(data$Stagel RM1 QParameter2) 

Min. 1st Qu. Median Mean 3rd Qu. Max. 

2.400 3.361 3.394 3.394 3.454 4.230 
> summary(data$Stagel RM2 QParameterl) 

Min. 1st Qu. Median Mean 3rd Qu. Max. 

132.0 138.8 146.8 146.8 155.0 162.7 

» summary(data$Stagel RM2 QParameter2) 

Min. 1st Qu. Median Mean 3rd Qu. Max. 
41.29 46.53 50.22 50.22 52.76 68.82 


阶段 1 中 采用 了 两 种 原料 ， 而 每 一 种 原料 都 有 两 个 质量 参数 用 于 检测 。 此 外 ， 每 个 
质量 参数 的 值 都 落 在 不 同 的 范围 内 。 

同样 ， 通 过 查看 阶段 1 每 种 原料 的 需求 量 和 消耗 量 ， 就 能 发 现 它们 存在 微小 的 差异 ， 
并 且 在 很 多 情况 下 ， 可 以 断言 这 些 需 求 量 和 消耗 量 都 超出 了 可 接受 的 量 : 

> summary (data$Stagel RM2 RequiredQty) 


Min. 1st Qu. Median Mean 3rd Qu. Max. 
300.0 450.0 450.0 443.7 504.0 504.0 


» summary(data$Stagel RM2 ConsumedQty) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
291.0 448.5 451.5 442.9 505:7 505.7 
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> summary (data$Stagel RM2 ToleranceQty) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
1.000 1.500 1.500 1.478 1.680 1.680 


» Studying the summary of absolute difference between Required and Consumed 
Quantity 
(研究 需求 量 与 消耗 量 的 绝对 差 值 摘要 ) 


> summary(abs(data$Stagel RM2 RequiredQty- data$Stagel RM2 ConsumedQty)) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
0.000 1.500 1.500 2.522 1.680 10.080 


同样 ， 在 阶段 1 的 加 工 完 成 之 后 ， 从 原料 1 和 原料 2 产生 一 种 最 终 混 合 物 。 
Stagel_QP1 Low 列 含 有 这 个 最 终 混合 物质 量 参数 的 下 限 值 。 加 工 完成 后 ， 每 个 阶段 检测 
4 个 不 同 的 质量 参数 : 
> summary(data$Stagel QP1 Low) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
180.0 188.3 195.5. 203:1 217.4 254.8 
> summary(data$Stagel QP1 Actual) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
194.4 246.5 270.0 277.8 298.7 2760.0 
> summary(data$Stagel QP1 High) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
280.0 292.9 304.2 315.4 337.9 396.4 


最 后 ， 资 源 名 称 (resource name) 表示 用 于 生产 过 程 的 机 器 和 有 关 先 前 产品 生产 的 信 
息 。 简 而 言 之 ， 在 阶段 1 使 用 了 5 台 不 同 的 机 器 ， 以 及 在 生产 现 有 产品 之 前 ， 机 器 先前 
生产 了 大 约 26 种 不 同 的 产品 : 

> length (unique (data$stagel PrevProduct)) 

[1] 26 

> length (unique (data$Stagel ResourceName)) 

HIS 


可 用 类 似 的 方式 去 探究 阶段 2 3. 4 和 5 的 数据 维度 。 每 个 阶段 的 列 名 称 的 命名 规 
则 都 和 阶段 1 保持 一 致 。 本 书 建议 在 进入 探索 性 数据 分 析 步 骤 之 前 ， 先 要 仔细 地 对 所 有 
列 进行 自 探索 。 
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最 后 的 一 个 列 为 Detergent Quality 〈 即 洗涤 剂 质量 ) ， 它 指明 生产 出 来 的 产品 的 质量 
最 终 为 Good Quality (良品 ) 或 Bad Quality (不 良品 ) 。 这 个 数据 维度 对 即将 进行 的 分 析 
大 有 帮助 。 以 下 代码 显示 了 该 列 的 摘要 。 可 以 看 到 ， 大 约 20% 的 产品 因为 属于 不 良品 而 
被 视 为 不 合格 产品 。 

> summary (data$Detergent Quality) 


Bad Good 
225 775 


5. 数据 探查 信息 汇总 

目前 对 数据 进行 的 数据 探索 性 练习 仍然 十 分 浅显 朴素 。 至 此 仅仅 对 所 能 够 证 明 的 候 
设 ， 数 据 是 什么 样 的 ， 以 及 数据 提供 的 信息 等 有 了 粗浅 的 了 解 而 已 。 因 此 ， 从 所 有 这 些 
练习 中 所 学 习 到 的 知识 也 只 是 鸟 欧 一 罕 仅 领略 粗浅 。 前 面 研究 了 生产 过 程 的 各 种 数据 维 
度 ， 比 如 生产 地 点 、 生 产 出 来 的 产品 ， 生 产量 和 需求 量 ， 以 及 其 他 高 层次 的 细节 。 对 于 
阶段 1, 探索 了 采用 的 单 种 原料 和 在 阶段 1 生成 的 混合 物 的 各 种 质量 参数 。 还 探查 了 每 种 
原料 的 需求 量 和 消耗 量 以 及 各 自 的 可 接受 的 浮动 范围 。 此 外 ， 也 深入 了 解 阶段 延迟 ， 产 
品 变化 提示 和 阶段 加 工时 间 等 各 种 类 别 因素 。 这 里 强烈 建议 对 阶段 2、3、4 和 5 的 所 有 
数据 维度 都 进行 进一步 的 自 探索 。 


3.4.8 ”特征 探索 


以 上 在 数据 探查 过 程 中 对 数据 进行 了 广泛 的 研究 。 在 此 基础 上 ， 就 可 以 切实 地 找 出 
数据 中 有 和 希望 深入 挖掘 的 领域 。 如 果 决 策 科 学 家 深入 彻底 地 研究 数据 ， 并 且 能 够 找 出 具 
体 关键 点 或 关键 领域 ， 这 对 决策 科学 家 无 疑 收获 很 大 。 在 这 一 节 中 ， 不 会 对 各 个 方面 深 
入 研究 ， 而 是 留待 后 续 章节 进行 探讨 。 当 前 的 主要 任务 是 找到 在 前 面 练习 期 间 所 用 数据 
的 关键 点 。 

首先 学 习 用 于 深入 分 析 数 据 的 特征 ， 即 “特征 工程 ”， 这 是 一 个 应 用 领域 知识 创建 
特征 /变量 的 过 程 。 在 探索 较 高 层次 的 数据 时 ， 从 直接 使 用 的 角度 来 看 ， 数 据 集 当中 的 一 
些 变量 / 列 具 有 不 少 分 析 价 值 。 例 如 ， 生 产 起 始 日 期 或 结束 日 期 在 开始 时 并 不 会 真正 增加 
任何 分 析 价值 。 然 而 ， 如 果 仔 细 研 究 一 下 ， 那 么 对 于 生产 中 某 一 周 或 某 一 月 的 某 一 天 极 
有 可 能 是 会 产生 影响 的 。 原 因 可 能 各 种 各 样 ， 而 且 在 许多 情况 下 ， 最 终 对 比 后 发 现 这 些 
变化 产生 的 影响 可 能 极其 微小 。 但 是 ， 如 果 在 用 例 中 出 现 这 样 一 个 罕见 的 情况 ， 那 么 产 
生 的 效益 却 可 能 是 无 比 巨大 的 。 为 了 更 透彻 地 理解 这 一 点 ， 以 亮 饪 为 例 。 在 一 年 四 季 中 ， 
炒菜 所 需 的 时 间 会 发 生 微小 的 变化 。 在 一 些 特定 的 生产 情况 下 ， 这 种 细微 变化 会 造成 不 
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良品 ， 因 此 研究 季节 性 的 影响 并 相应 地 采取 预防 措施 不 可 或 缺 。 

同样 地 ， 还 有 一 些 变量 给 出 了 不 同 阶段 原料 的 消耗 量 、 需 求 量 和 可 接受 的 浮动 范围 。 
这 三 者 是 数据 集 当 中 的 3 个 不 同 的 变量 ， 但 是 可 以 通过 指出 在 原料 消耗 过 程 中 观察 到 的 
偏差 百分比 ， 从 而 形成 一 个 新 的 特征 。 这 时 从 外 行人 的 角度 来 思考 ; 如 果 从 一 个 特征 获 
得 的 结果 影响 更 大 也 更 容易 理解 ， 那 么 就 远 远 好 过 结合 多 个 变量 推断 出 的 相同 结果 。 这 
个 过 程 不 断 地 在 演变 。 在 许多 情况 下 ， 创 建 出 的 一 些 特征 不 仅仅 是 由 领域 知识 驱动 的 ， 
而 是 统计 学 和 业务 知识 两 者 的 结合 。 可 能 有 一 些 情况 下 ， 要 用 到 更 强大 的 统计 技术 去 发 
掘 数据 中 的 潜在 特征 , 帮助 更 清楚 地 理解 问题 。 类似 地 , 也 可 以 应 用 诸如 主 成 分 分 析 (PCA) 
的 复杂 算法 来 创建 完全 由 统计 驱动 的 特征 。 从 外 行人 的 角度 来 看 ， 这 些 特征 可 能 并 不 是 非 
常 直观 ， 但 是 当 努 力 深入 研究 (探查 性 和 预测 性 的 ) 问题 时 ， 这 些 特征 是 大 有 作为 的 。 

在 接 下 来 的 小 节 和 第 4 章节 中 ， 将 详细 探讨 每 一 种 情况 ， 以 便 更 好 地 解决 问题 。 


3.1.4 了 解数 据 全 貌 


1. 搭建 数据 的 背景 信息 


截至 目前 ， 仅 从 数据 的 角度 来 处 理 数据 ， 换 言 之 ， 对 与 数据 和 问题 有 关 的 领域 知识 
的 掌握 依然 十 分 有 限 。 在 这 种 情况 下 ， 只 是 探 清 了 数据 的 概况 ， 还 需 对 领域 和 流程 相关 
的 知识 加 以 利用 ， 深 入 接触 和 理解 数据 ， 以 便 更 好 地 解决 问题 。 在 任何 决策 科学 用 例 中 ， 
只 要 接收 到 了 数据 ， 最 常 采 用 的 方法 都 是 从 端 到 端 地 探索 数据 。 这 种 探索 包括 深入 到 数 
据 的 每 个 维度 穷 原 竟 委 ， 努 力 发 掘 潜在 的 数据 信息 和 模式 ， 应 用 数据 驱动 的 洞 见 去 找 出 
问题 内 在 的 联系 。 可 是 在 这 里 ， 却 忽略 了 领域 的 背景 信息 ! 而 这 些 背 景 信息 无 疑 是 举 足 
轻重 ， 不 可 或 缺 的 。 在 获得 了 更 为 详细 的 领域 背景 信息 和 流程 层级 的 信息 之 后 ， 才 能 够 
更 透彻 地 理解 数据 。 

为 了 识别 出 有 价值 的 数据 ， 可 下 一 步 查 明 与 数据 相关 的 领域 和 流程 的 信息 。 通 常 采 
取 的 做 法 是 对 数据 进行 初步 的 探查 研究 ， 再 向 行业 专家 (subject matter expert, SME) 或 
领域 专家 针对 数据 提出 问题 ， 同 时 请 他 们 对 此 做 出 澄清 。 为 了 方便 起 见 ， 这 里 预先 提供 
了 解决 问题 所 需 的 初始 背景 和 几 个 与 领域 相关 方面 的 信息 。 通 常 ， 在 解决 问题 时 ， 强 烈 
建议 读者 向 行业 专家 请 教 与 问题 相关 的 全 部 综合 问题 ， 以 便 完整 无 缺 地 把 握 数 据 的 全 貌 。 

2. 数据 的 领域 背景 信息 

以 下 摘录 为 数据 和 问题 提供 了 更 为 深入 的 领域 知识 。 在 现实 生活 中 ， 只 需 与 几 位 领 
域 专家 、 数 据 专家 和 运营 专家 口头 交流 并 虚心 求教 ， 接 着 再 对 领域 进行 研究 ， 就 能 实现 
这 一 目标 。 
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在 本 用 例 中 ， 宝 洁 公司 是 一 家 领先 的 消费 品 生产 商 ， 在 全 球 各 地 生产 大 量 的 产品 。 
宝洁 公司 其 中 一 家 生产 工厂 位 于 印度 浦 那 。 那 里 的 生产 车 间 拥 有 大 约 10 条 流水 线 (一 条 
流水 线 负责 一 种 产品 的 端 到 端 生 产 ) 。 每 一 条 流水 线 都 配备 了 多 台 机 器 ， 即 资源 ， 每 台 
机 器 在 生产 过 程 中 负责 一 个 阶段 的 生产 。 一 条 流水 线 可 以 生产 多 种 产品 ， 比 如 不 同 品牌 
的 洗涤 剂 可 细 分 为 各 不 相同 的 产品 ， 并 在 同一 条 流水 线 上 生产 。 

该 用 例 涉及 洗衣 粉 的 生产 ，〔 假 设 ) 该 洗衣 粉 是 汰 渍 的 另 一 种 产品 变 体 。 在 一 个 单 

独 生 产 过 程 中 ， 生 产 出 大 约 5000 千克 的 洗衣 粉 ， 再 分 装 成 1 千克 /0.5 千克 的 小 包装 等 。 
生产 过 程 部 分 自动 化 ， 而 负责 该 生产 过 程 的 技术 人 员 有 时 可 能 会 重 置 一 些 设置 以 避免 生 
产 出 不 良品 。 为 了 较 好 地 理解 这 一 点 ， 用 一 个 咖 量 亮 饪 例子 来 做 类 比 。 比 如 您 正在 毫 饪 
西红柿 咖 哑 ， 而 且 您 对 配方 也 了 如 指 掌 。 在 亮 饪 过 程 中 ， 您 发 现 加 了 太 多 的 水 。 所 以 继 
续 加 热 咖 噶 混合物 并 搅拌 一 段 时 间 ， 以 期 最 后 能 按 食谱 做 出 您 所 期 待 的 咖 吗 菜肴 。 当 您 
发 现 从 不 同 的 供应 商 购买 来 的 相同 产品 ， 却 拥有 不 同 的 口味 ， 有 时 您 就 可 能 会 在 菜肴 中 
添加 其 他 一 些 盐 或 香料 。 这 种 情况 在 洗涤 剂 生产 过 程 中 也 同样 适用 。 尽 管 生产 流程 的 主 
要 部 分 是 自动 化 的 ， 但 是 同一 种 产品 有 可 能 采用 多 种 方式 生产 ， 而 且 仍然 产生 相同 的 结 
果 (属性) 。 
在 用 例 中 ， 洗 涤 剂 生产 过 程 分 为 5 个 不 同 的 阶段 /时 期 。 每 个 阶段 都 要 完成 一 个 特定 
的 过 程 ( 如 果 是 做 一 碗 面条 ， 把 者 面 当成 第 一 阶段 ， 接 着 把 香料 和 蔬菜 一 起 者 为 第 二 阶 
段 ， 最 后 第 三 阶段 将 蔬菜 混合 物 浇 淋 在 面条 上 成 为 一 道 面 食 ) 。 在 这 个 过 程 的 不 同 阶段 
可 以 加 入 各 种 原料 。 在 此 用 例 中 ， 阶 段 1 有 两 种 原料 混合 在 一 起 形成 混合 物 。 在 机 器 中 
加 热 数 分 钟 后 加 工 该 混合 物 。 加 工 后 ,混合 物 就 被 输送 到 阶段 2， 这 时 混合 物 按照 不 同 的 
设置 进行 加 工 ， 此 处 无 须 添加 任何 新 的 原料 (成 分 ) ， 之 后 加 工 后 的 混合 物 又 被 传送 到 
下 一 个 阶段 。 在 阶段 3 中 ， 加 入 两 种 新 的 原料 ， 然 后 将 得 到 的 混合 物 加 工 几 分 钟 以 形成 
新 的 混合 物 。 接 着 将 阶段 3 的 混合 物 传输 到 阶段 4 和 阶段 5， 并 在 压力 /温度 等 不 同 的 设 
置 下 进一步 加 工 。 最 后 ， 阶 段 5 的 成 品 就 是 在 生产 过 程 中 生产 的 洗涤 剂 。 

图 3.2 从 更 高 层次 描述 了 整个 生产 过 程 。 

整个 生产 过 程 采用 监控 和 数据 采集 (supervisory control and data acquisition; SCADA) 
系统 进行 监控 。 负 责 加 工 的 技术 人 员 可 从 中 捕获 到 生产 过 程 中 和 生产 过 程 后 每 个 阶段 的 
有 关 成 品 和 属性 的 数据 。 通 过 SCADA 系统 收集 数据 ， 再 存储 到 其 他 地 方 用 于 调查 和 分 
析 。 在 用 例 中 ， 选 用 仅 在 印度 浦 那 的 一 个 地 点 生产 的 一 种 产品 的 数据 。 
出 于 安全 原因 ， 这 里 屏蔽 了 原料 名 称 和 质量 参数 名 称 。 同 样 地 ， 质 量 
算法 进行 缩放 方便 观察 ， 但 同时 却 保持 〈 数 据 ) 关系 完整 。 如 果 一 些 质量 参数 的 值 看 
起 来 没有 科学 意义 ， 则 假定 这 些 值 已 被 屏蔽 。 
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捕获 的 数据 点 
合成 混合 物 的 4 个 不 同 质量 指标 〈 实 
际 值 的 中 高 阔 值 》 


捕获 的 数据 点 
各 种 单一 原料 的 质量 指标 


每 种 原料 的 需求 量 、 消 耗 量 和 可 接受 

的 浮动 范围 

加 工时 间 、 延 迟 信息 、 先 前 产品 信 

息 、 机 器 信息 产物 :混合 物 


捕获 的 数据 点 
Hs 最 终 质量 指标 
阶段 1 和 阶段 3 中 的 原料 1 和 原料 2 是 不 同 的 物质 。 合格 质量 指标 (良品 
而 且 ， 在 不 同 阶段 测量 得 出 的 质量 指标 1、2、3 /不 良品 ) 
采用 通用 命名 规则 是 为 了 让 图 表 在 逻辑 上 显得 更 简单 易 懂 。 
生产 过 程 一 领域 背景 信息 


图 3.2 
图 3.3 让 读者 对 生产 工厂 数据 进行 采集 、 处 理 和 分 析 的 整个 过 程 了 解 得 一 清二 楚 。 


分 析 仓 库 


分 析 、 可 视 化 和 解释 数据 
ddl eos 


数据 科学 家 
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生产 过 程 是 在 工厂 中 进行 的 ， 技 术 人 员 负 责 监督 整个 过 程 。 主 管 可 以 访问 复杂 的 软 
件 和 系统 即 控制 基础 架构 ， 这 有 助 于 实时 监控 质量 参数 和 生产 过 程 相 关 参 数 。 在 现 有 条 
件 的 基础 上 ， 技 术 人 员 可 能 会 在 特定 阶段 采取 加 热 或 加 工 更 长 的 时 间 。 然后 将 生产 过 程 
中 监控 的 数据 存储 到 数据 仓库 中 ， 稍 后 用 于 调查 和 分 析 。 随 后 决策 科学 家 访问 该 分 析 仓 
库 《〈 即 分 析 就 绪 的 数据 仓库 ) 进行 分 析 。 为 了 找 出 有 助 于 决策 过 程 的 模式 ， 决 策 科学 家 
对 海量 数据 进行 提取 、 处 理 和 搜集 分 析 。 

创建 专门 用 于 用 例 的 各 种 分 析 表 的 过 程 称 为 数据 整合 〈 即 针对 特定 用 例 将 不 同 来 源 
的 数据 整理 在 一 起 ) 。 同 样 ， 采 用 这 些 数据 集 来 探索 数据 ， 导 出 新 数据 并 发 现 潜在 模式 
的 过 程 被 称 为 数据 整理 。 最 后 ， 使 用 新 创建 的 、 派 生 的 和 现 有 数据 集 去 发 现 模式 、 解 决 
问题 和 回答 商业 问题 的 技术 和 科学 被 称 为 决策 科学 。 


3.2 通过 数据 ( 单 变 量 ) 探索 物 联网 生态 系统 各 个 维度 


本 节 将 深入 探究 物 联 网 用 例 中 的 每 个 维度 ， 更 加 切实 地 了 解数 据 展示 的 信息 。 而 且 
进行 广泛 的 单 变量 分 析 ， 研 究 整 个 数据 全 貌 并 将 其 可 视 化 。 


3.2.1 数据 显示 了 什么 


(在 上 一 节 “3.1 识别 有 用 数据 做 出 决策 ”中 ) 访问 了 数据 维度 ， 同 时 探索 了 数据 
中 有 用 的 数据 ， 并 且 明 白 了 Product Qty Unit, Product ID. Material ID 和 Product Name 
这 些 名 称 所 代表 的 含义 ， 即 表明 这 些 列 包 含有 一 个 单 值 。 因 此 ， 可 得 出 结论 : 用 例 中 的 
数据 是 为 特定 产品 提供 的 ， 其 成 品 以 千克 为 单位 来 衡量 。 下 面 将 细 细 研究 Order Quantity 
(订单 量 ) 和 Produced Quantity( 生 产量 )。 前 面 探究 数据 维度 时 , 使 用 了 (了 R 语言 )summary 
命令 来 求 出 百 分 位 分 布 。 接 下 来 还 会 做 更 进一步 的 研究 。 

Order Quantity 和 Produced Quantity 都 属于 连续 变量 ， 换 言 之 ， 一 个 变量 可 以 有 无 数 
个 可 能 的 值 (比如 零 到 一 百 万 之 间 的 任意 数字 ) 。 这 时 可 用 直方 图 或 频数 多 边 图 (frequency 
polygon) 研究 连续 变量 ， 并 且 研 究 数据 的 分 布 情况 : 

#We will use the library 'ggplot2' to visualize the data 

(这 里 将 采用 ' ggplot2' 库 来 可 视 化 数据 ) 

> library (ggplot2) 


#Plot a Histogram for Order Quantity 
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(绘制 一 个 order Quantity (订单 量 ) 的 直方 图 ) 


2d 


setting Bin width to 500, as we have a range of 0 to 50004 


(因为 数据 范围 为 0 to 5000+， 所 以 将 Bin 宽度 设 为 500) 
> ggplot(data = data, aes (data$Order Quantity)) 


*ge 


#P1 


om histogram(binwidth-500) 


ot a Histogram for Produced Quantity 


(绘制 一 个 Produced Quantity (生产 量 ) 的 直方 图 ) 
> ggplot(data = data, aes(data$Produced Quantity)) 


二 Ge 


om histogram (binwidth=500) 


上 面 的 代码 给 Order Quantity 和 Produced Quantity 变量 绘制 了 两 个 单独 的 直方 图 。 只 


需 随便 一 


物 进 行 上 
的 数值 


较 颇 有 困难 。 图 3.4 中 每 个 Bin 的 宽度 为 500， 可 以 看 到 ，Produced Quantity Y 
上 Order Quantity 的 更 多 地 分 布 在 2500— 7500. 


dataSOrder_Quantiy dalasProduced_Ouantty 


图 3.4 


ggplot (data = data) + 


帝 ， 就 能 清楚 地 看 出 这 两 个 变量 之 间 存 在 差异 ， 但 是 要 将 两 个 几乎 相同 的 相似 


H 


为 了 便于 比较 ， 采 用 一 个 频数 多 边 形 。 在 需要 同时 比较 两 个 数据 维度 的 情况 下 ， 使 


频数 多 边 形 而 非 直方 图 ， 如 图 3.5 所 示 。 


geom freqpoly (binwidth=500,aes (dataSOrder Quantity),color-"red",size-1) + 


geo 
=50 


RI 3.5 4 


m freqpoly (binwidth 


0, aes (data$Produced Quantity),color-"blue",size-1) 


PF 的 频数 多 边 形 同 时 展示 了 生产 量 和 (订单 ) 需求 量 的 分 布 。 从 数据 中 可 清楚 


地 发 现 这 两 个 变量 之 间 存 在 一 个 细微 的 差别 ,订单 量 在 5000~6000 出 现 了 小 幅 上 扬 波动 ， 
在 6000—7000 的 范围 内 ， 也 发 生 了 同样 的 波动 但 却 是 下 降 的 ， 此 处 显示 出 生产 量 高 于 订 
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单 量 。 简 而 言 之 ， 可 以 明确 地 得 出 结论 ， 对 于 很 多 资源 来 说 ， 当 订单 量 约 为 5000 千克 时 ， 
生产 量 就 会 更 高 。 不 需 将 这 些 变量 作为 两 个 单独 的 变量 ， 而 是 将 它们 创建 为 一 个 特征 并 
将 其 用 于 进一步 分 析 。 


>ggplot (data = data) + 


geom freqpoly (binwidth=10, aes (abs (data$Order Quantity - 
data$Produced Quantity) ) ) 


data$Order_Quantity 


图 3.5 


观察 图 3.6 可 以 肯定 ， 有 相当 多 的 记录 与 实际 的 订单 有 0 一 500 个 单位 的 偏差 。 可 采 
用 每 个 生产 订单 中 的 偏差 ， 而 不 是 分 别 使 用 这 两 个 变量 。 新 的 变量 比 另 外 两 个 包含 更 多 
的 信息 。 同 样 ， 也 可 考虑 为 该 偏差 创建 一 个 新 的 类 别 ， 即 高 (High) . "P (Medium) 以 
及 低 (Low) 。 并 且 观 察 偏差 的 分 布 ， 比 如 落 在 第 一 个 分 区 的 第 30—40 百 分 位 数 中 的 为 
低 ， 落 在 下 一 个 分 区 为 中 ， 最 后 一 个 分 区 则 为 高 。 所 有 落 在 相似 范围 内 的 偏差 都 极 有 可 
能 代表 类 似 行为 导致 的 结果 ， 也 就 是 生产 过 程 中 产生 的 类 似 错误 或 模式 。 因 此 ， 定 义 一 
个 类 别 来 代表 这 些 偏差 有 助 于 让 分 析 变 得 更 加 轻松 。 

#Creating a new feature/segments for Quantity deviations 


(给 数量 偏差 "ouantity Deviation" 创 建 一 个 新 的 特征 /分 区 ) 


>temp<- (abs (data$Order Quantity - data$Produced Quantity)) 
2data$Quantity Deviation«-ifelse(temp«- 150,"Low",ifelse(temp«- 


*64* 当 大 数据 遇见 物 联网 一 一 智能 决策 解决 之 道 
300, "Medium", "High")) 


>ggplot (data, aes(x-Quantity Deviation)) + geom bar() 


绘制 出 的 图 放 在 图 3.6 左 侧 。 


= 


1 


abs|datasOrder. Quantty - ataSProduced Quant 


图 3.6 


在 图 3.6 中 , 左 侧 图 显示 了 生产 量 和 订单 需求 量 之 间 的 绝对 偏差 分 布 ， 而 右 侧 图 表明 


派生 特征 的 直方 图 ， 即 质量 偏差 (Quality Deviation) 分 区 。 
接 下 来 将 探讨 与 日 期 和 时 间 相 关 的 维度 。 在 数据 中 可 观察 到 3 个 变量 ， 
Manufacturing StartTS, Manufacturing EndTS 和 Total Manufacturing Time mins, 


即 


其 中 给 


出 了 生产 日 期 和 时 间 的 详细 信息 。 尽 管 可 以 将 加 工时 间 当 作 一 个 重要 变量 ， 但 生产 开始 
和 结束 的 时 间 戳 不 会 真正 增加 价值 ， 因 为 该 变量 可 能 有 1000 个 不 同 的 时 间 戳 。 相 反 ， 如 

尝试 创建 一 个 特征 ， 从 较 少数 据 收集 信息 ， 则 解释 模式 将 变 得 格外 简单 。 可 以 创建 一 
些 特征 ， 诸 如 一 天 的 某 个 小 时 、 一 周 的 某 一 天 以 及 一 个 月 的 某 一 天 ， 了 解 时 间 上 的 变化 
是 否 会 对 最 终 的 问题 产生 影响 。 另 外 ， 如 果 创 建 一 个 将 加 工时 间 与 季节 特征 又 加 起 来 的 


特征 ， 那 么 新 的 结果 特征 将 变 成 问题 解决 中 非常 强大 的 一 个 维度 : 


2 


quantile(data$Total Manufacturing Time mins,c(0.1,0.5,0.7,0.9,0.95, 


8,0.99,1.0)) 
10% 50% 70% 90% 95% 98% 99% 100% 
180.0 240.0 240.0 300.0 360.0 600.0 842.4 2880.0 


0.9 


观察 加 工时 间 的 百 分 位 数 分 布 ， 可 以 明显 地 看 到 有 一 个 异常 值 存在 〈 从 989681 
100%) 。 从 经 验 法 则 出 发 ， 为 了 去 除 异 常 值 ， 需 用 9 AEREI 98% 的 值 。 如 


果 没 有 处 理 异 常 值 ， 错 误解 释 数据 的 概率 则 会 非常 
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. 65° 


#Treating outliers, by replacing the values above 98th percentile with the 


98th percentile 
(异常 值 处 理 ， 用 第 98 个 百 分 位 数 的 值 取 代 所 有 高 于 第 98 个 百 分 位 数 的 值 ) 


threshold«-quantile (data$Total Manufacturing Time mins,0.98) 


temp«-data$Total Manufacturing Time mins 


data$Total Manufacturing Time mins«-temp 


EX 
> 
> temp<-ifelse (temp>threshold, threshold, temp) 
> 
2 


quantile(data$Total Manufacturing Time mins) 


0$ 25$ 50% 75% 100% 


0 180 240 240 


600 


在 生产 过 程 层 级 上 抓 取 数 据 信息 的 其 他 变量 , 即 Product ID (产品 ID), Product Name 
(产品 名 称 ) Manufacturing Order ID 〈 生 产 订单 ID ) ~ Assembly Line ID 〈 流 水 线 ID) 
和 Site Location〈 工 厂 地 点 ) ， 这 些 变量 在 前 面 章节 (参见 3.1 节 ) 中 已 探讨 过 了 。 所 有 
其 他 维度 为 我 们 提供 了 有 关 数 据 的 背景 信息 ， 如 正在 生产 的 产品 ， 生 产 工厂 的 地 点 位 置 


等 。 


由 于 这 些 维度 (除了 Assembly Line ID 以 外 ) ， 只 有 一 种 表现 形式 ， 即 只 有 一 个 值 ， 


因此 在 后 续 的 分 析 中 考虑 这 些 维度 是 没有 多 大 价值 的 。 Assembly Line ID 可 用 于 进一步 分 


析 ， 


> colnames (data[21:44]) 


[1] 
[3] 
[5] 
[7] 
[9] 
[11] 
[13] 
[15] 
[17] 
[19] 
[21] 
[23] 


"Stagel_PrevProduct" 
"Stagel_ProcessingTime mins" 
"Stagel RM1 QParameter1" 
"Stagel RM2 QParameterl" 
"Stagel RM2 ConsumedQty" 
"Stagel ProductChange Flag" 
"Stagel QP1 Actual" 

"Stagel QP2 Low" 

"Stagel QP2 High" 
"Stagel QP3 Actual" 
"Stagel QP4 Low" 

"Stagel QP4 High" 


因为 这 个 维度 能 够 确定 哪 条 流水 线 用 于 生产 哪 种 产品 。 
接 下 来 ， 再 从 更 细 粒 度 层面 去 探究 阶段 层级 的 维度 。 以 下 是 表示 阶段 1 过 程 的 各 种 


"Stagel DelayFlag" 
"Stagel RM1 QParameter2" 
"Stagel RM2 QParameter2" 
"Stagel RM2 RequiredQty" 
"Stagel RM2 ToleranceQty" 
"Stagel QP1 Low" 
"Stagel QP1 High" 
"Stagel QP2 Actual" 
"Stagel QP3 Low" 
"Stagel QP3 High" 
"Stagel QP4 Actual" 
"Stagel ResourceName" 
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从 Stagel PrevProduct 和 Stagel ProductChange Flag 开始 分 析 , 前 者 表示 在 同一 生产 
线 上 以 前 生产 的 产品 ， 而 后 者 表明 了 对 生产 的 产品 出 现 不 一 样 的 情况 发 出 一 个 提示 
(fag) 。 产 品 变化 提示 十 分 直观 ， 可 直接 用 于 分 析 。 这 解释 了 在 大 约 有 35% 的 情况 下 ， 
在 同一 条 生产 线 上 生产 的 先前 产品 是 不 一 样 的 。 因 此 可 以 推测 ， 在 同一 生产 线 上 生产 产 
品 时 ， 可 能 因为 与 之 前 使 用 的 其 他 原料 发 生 了 轻微 化 学 反应 而 产生 了 许多 不 良品 ， 从 而 
造成 产品 发 生变 化 。 


3.22 ”探索 先前 产品 …… 


为 了 能 够 不 费 吹 灰 之 力 完成 报告 , 现 去 找 出 每 个 单独 的 先前 产品 维度 ( 即 stagel) 出 
SU ELA EG: 

»library (dplyr) 

# 通 过 使 用 "tapply" 操 作 来 分 组 进行 聚合 计数 

> temp«- 

as.data.frame (tapply (data$Product ID,data$Stagel PrevProduct,1length)) 


> colnames (temp) <-"prev product count" 


> temp$Product«-rownames (temp) 
» temp$product perc«-temp$prev product count/sum(temp$prev product count) 


> temp«-arrange (temp, desc (product perc)) 


> temp«-mutate (temp,cum perc-cumsum (product perc)) 


> nrow (temp) 
[1] 26 


» head(temp) 


prev product count Product product perc cum perc 
1 469 Product 545 0.469 0.469 
zd 352 Product 543 0:352 0.821 
3 30 Product 547 0.030 0.851 
4 26 Product 546 0.026 0.877 
5 18 Product 555 0.018 0.895 
6 16 Product 563 0.016 0.911 
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从 上 面 可 看 出 ， 在 生产 产品 汰 渍 之 前 ， 大 约 有 26 种 不 同 的 产品 都 在 同一 生产 线 上 生 
产 。26 是 一 个 相当 大 的 数字 一 一 但 不 确定 是 否 能 够 从 中 找 出 任何 数据 模式 。 现 在 先 来 观 
察 这 些 产品 在 数据 中 是 如 何 分 布 的 。 上 述 代 码 汇总 了 先前 产品 的 频率 计数 ， 并 计算 总 频 
率 的 百分比 。product perc 列 显示 每 种 产品 在 数据 记录 中 所 占 的 百分比 。 通 过 累计 百分比 
总 和 ， 按 序 显示 前 六 行 。 可 以 发 现在 先前 产品 的 百分比 分 布 有 一 个 巨大 的 差距 。 在 同一 
生产 线 的 “ 汰 渍 ”生产 之 前 ， 生 产 Product 545 的 次 数 占 了 约 50%。 而 在 26 种 产品 中 ， 
名 列 前 五 名 的 产品 贡献 了 大 约 90% 的 数据 。 可 把 前 五 名 产品 分 成 $ 种 类 别 而 其 余 21 种 产 
品 则 为 “Others (其 他 ) ”类 别 ， 或 者 只 把 26 种 产品 分 成 两 个 类 别 ， 即 “Product 545" 
和 “All others (所 有 其 他 ) ”， 因 为 第 一 个 “Product 545” 的 百分比 比 所 有 其 他 产品 的 
都 高 出 许多 。 创 建 一 个 含有 6 个 类 别 的 新 特征 ， 即 前 五 名 产品 各 为 5 种 类 别 ， 其 他 的 全 
部 产品 为 一 种 类 别 ; 或 者 创建 只 包含 两 个 类 别 的 新 特征 ， 即 “Product 545" fl AIL others" 
所 有 其 他 的 类 别 ， 这 样 可 以 帮助 查 清 产生 不 良品 的 原因 。 将 多 个 类 别 聚 合 在 一 起 并 减少 
层级 ， 不 仅 能 够 减少 数据 中 的 噪声 ， 还 可 使 模式 查找 变 得 更 容易 、 更 直观 ， 同 时 也 利于 
数据 科学 家 进行 分 析 以 及 提高 算法 执行 效率 。 下 面 就 去 创建 这 两 个 特征 ， 稍 后 再 去 找 出 
哪 一 个 特征 更 加 适合 分 析 使 用 。 

Q ”创建 第 一 个 特征 : 


»temp«-ifelse(data$Stagel PrevProduct-- "Product 545", 
"Product 545","Others") 
»data$Stagel PrevProduct 1«-as.factor (temp) 


»temp«-ifelse(data$Stagel PrevProduct $in$ 
c("Product 545","Product 543", 
"Product 547","Product 546","Product 555"),as.character(data$Stagel Pr 


evProduct), "Others") 
Q ”创建 第 二 个 可 选 特征 : 


2data$Stagel PrevProduct 2<-as.factor (temp) 


>summary (data$Stagel PrevProduct 1) 
Others Product 545 
531 469 


> summary(data$Stagel PrevProduct 2) 
Others Product 543 Product 545 Product 546 Product 547 Product 555 
105 352 469 26 30 18 
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与 总 体 加 工时 间 类 似 ， 在 阶段 1 的 加 工时 间 中 出 现 了 异常 值 ， 这 时 可 采取 前 面 的 方 
法 即 以 第 98 百 分 位 数 的 值 来 取代 这 些 异 常 值 : 
> quantile(data$Stagel ProcessingTime mins,c(0.1,0.5,0.9,0.98,1)) 


10% 50% 90% 98% 100% 
35.0380 50.1500 79.0500 136.1852 2578.4800 


> threshold<-quantile (data$Stagel ProcessingTime mins, 0.98) 


> temp«-data$Stagel ProcessingTime mins 
> temp«-ifelse (temp»threshold, threshold, temp) 


» summary (temp) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
0.92 40.77 50.15 52.28 57.57 136.20 


> data$Stagel ProcessingTime mins«-temp 


紧 接着 探究 Raw Material Quality (原料 质量 ) 中 的 原料 。 阶 段 1 使 用 了 两 种 原料 ， 
每 种 都 有 两 个 独立 的 质量 参数 。 正 如 前 面 章节 “识别 有 用 数据 ”中 所 探讨 的 那样 ， 原 料 
的 所 有 质量 参数 都 是 连续 的 ， 它 们 的 标准 差 远 低 于 均值 。 因 此 ， 不 需要 对 变量 进行 任何 
重大 的 转换 。 至 多 可 能 需要 在 预测 性 分 析 过 程 中 对 其 进行 归 一 化 〈 第 4 章 会 讲述 更 多 这 
方面 的 内 容 ) 。 

通过 以 下 代码 ， 可 获得 阶段 1 每 种 原料 的 所 有 质量 参数 的 均值 、 标 准 差 、 最 小 值 和 
最 大 值 ; 

fcreating a temporary dataframe 

(创建 一 个 临时 数据 框 ) 

> sample«-data[,c("Stagel RM1 QParameterl","Stagel RM1 QParameter2", 

t "Stagel RM2 QParameter1","Stagel RM2 QParameter2")] 


> t(apply(sample,2,function(x) c(min-min(x),max-max(x),sd-sd(x)))) 


min max mean sd? 
Stagel RM1 QParameterl  3765.00000 4932.332160 4274.782808 210.39327 
Stagel RM1 QParameter2 2.40000 4.229568 3.394041 0.2802995 
Stagel RM2 QParameterl 132.00000 162.657600 146.784481 8.62362 
Stagel RM2 QParameter2 41.28572 68.820011 50.222232 4.38986 


© sd: standard deviation 即 标准 差 的 缩写 。 一 一 译 者 注 
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接 下 来 的 一 个 维度 中 包含 了 Stagel RM2 RequiredQty (阶段 1 原料 2 需求 量 ) 、 
Stagel RM2 ConsumedQty (阶段 1 原料 2 消耗 量 ) 和 Stagel RM2 ToleranceQty (阶段 1 
原料 2 可 接受 浮动 量 ) 。 这 些 命名 都 十 分 直观 易 懂 ， 方 便 了 解 这 些 参数 代表 的 意思 。 现 
在 来 看 看 前 六 行 的 数据 以 获得 更 多 细节 : 

> head(data[,c("Stagel RM2 RequiredQty", 

"Stagel RM2 ConsumedQty","Stagel RM2 ToleranceQty")]) 

Stagel RM2 RequiredQty Stagel RM2 ConsumedQty Stagel RM2 ToleranceQty 


1 300 292 
2 300 292 
3 300 292 
4 300 292 
5 300 292 
6 300 292 


正如 所 看 到 的 ， 上 述 代 码 显示 了 各 种 原料 需求 量 以 及 在 可 允许 的 偏差 的 情况 下 消耗 
了 多 少 原料 。 前 六 行 似乎 都 超出 了 正常 的 消耗 范围 。 现 在 创建 一 个 名 为 Stagel RM2_ 
ConsumptionFlag〔 阶 段 1 原料 2 消耗 提示 ) 的 特征 ， 根 据 需求 量 和 消耗 量 与 可 接受 的 浮 
动 范围 之 间 的 差异 来 指明 消耗 属于 正常 还 是 异常 。 这 里 可 以 注意 到 ， 在 大 约 50% 的 情况 
下 ， 都 会 出 现 异常 情况 : 

> temp<-abs (data$Stagel RM2 RequiredQty - 


data$Stagel RM2 ConsumedQty) 
> temp«-ifelse(temp»data$Stagel RM2 ToleranceQty, 


"Apnormal","Normal") 


» data$Stagel RM2 Consumption Flag «-as.factor (temp) 
> summary (data$Stagel RM2 Consumption Flag) 


Abnormal Normal 
489 Siil 


除了 原料 消耗 细节 和 质量 参数 之 外 ,还 有 阶段 1 (以 及 所 有 其 他 阶段 ) 合成 混合 物 的 
质量 参数 。 为 该 混合 物 检 测 的 所 有 4 个 质量 参数 都 包含 在 内 ， 而 且 提 供 了 每 个 质量 参数 
的 较 低 和 较 高 冰 值 。 接 下 来 仔细 观察 这 些 数据 ; 


head (data[,32:34],3) 
Stagel QP1 Low Stagel QP1 Actual Stagel QP1 High 


“70。 当 大 数据 遇见 物 联 网 一 一 智能 决策 解决 之 道 


180.000 250.0000 280.00 
181.035 231.3225 281.61 
3 182.070 242.7600 283.22 


如 上 所 示 ， 每 个 质量 参数 每 一 行 都 含有 实际 值 、 较 低 阔 值 和 较 高 阔 值 。 类 似 于 以 前 
的 转换 ， 可 创建 一 个 新 的 特征 来 表示 质量 参数 落 在 正常 范围 之 内 还 是 之 外 : 
> temp«-ifelse(data$Stagel QP1 Actual > data$Stagel QP1 Low & 


data$Stagel QP1 Actual > data$Stagel QP1 High, "Normal","Abnormal") 


> summary (as.factor (temp) ) 


Abnormal Normal 
976 24 


然而 ， 从 上 面 看 出 ， 超 过 90% 的 读数 是 不 正常 的 。 那 么 ， 如 果 把 它们 归 类 为 正常 和 
异常 ， 那 么 并 不 会 真正 增加 价值 。 在 这 种 情况 下 ， 可 采用 正常 范围 的 偏差 百分比 来 表示 。 
假设 预期 的 值 为 900~110, 实际 值 是 140, 那么 正常 值 的 偏差 百分比 为 均值 (90,110)= 100, 
与 100 的 偏差 是 40， 因 此 得 出 40%。 

以 下 代码 可 求 出 阶段 1 质量 参数 1 (Quality Parameter 1) 的 偏差 百分比 : 


> temp«-(data$Stagel QP1 High + data$Stagel OP1 Low)/2 
> temp«-abs (data$Stagel QP1 Actual-temp) /temp 
> data$Stagel QP1 deviation«-temp 


» summary(data$Stagel QP1 deviation) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
0.00000 0.04348 0.11300 0.13180 0.13040 9.67800 


确实 从 上 面 发 现 了 异常 值 ， 大 约 900% 的 偏差 。 这 时 仍 采取 之 前 的 方法 即 以 第 98 
分 位 数 的 值 取 代 这 些 异 常 值 : 


> threshold«-quantile(data$Stagel QP1 deviation, 0.98) 
> temp«-data$Stagel QP1 deviation 

> temp«-ifelse (temp>threshold, threshold, temp) 

> 


summary (temp) 


Min. 1st Qu. Median Mean 3rd Qu. Max. 
0.00000 0.04348 0.11300 0.11280 0.13040 0.26090 


> data$Stagel QP1 deviation«-temp 
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同样 ， 根 据 条 件 ， 


下 代码 ， 即 给 阶段 1 的 


(提取 所 需 的 列 名) 


可 为 阶段 1 最 终 混合 物 的 其 他 3 个 质 


余 3 个 质量 参数 创建 了 类 似 的 特征 : 


#Extract the required column names 


col matrix«-t (matrix (colnames (data) [32:43],ncol=4,nrow=3)) 


#Iterate through loop for all the remaining 3 parameters 
(循环 遍历 其 余 所 有 的 3 个 参数 ) 


for(x in 2:nrow(col matrix)) 


同样 地 ， 可 从 阶段 层级 上 对 每 个 维度 进行 粒度 


} 


low<-col matrix[x,1] 
high«-col matrix[x,3] 
actual«-col matrix[x,2] 


量 参数 创建 特征 。 请 参见 以 


temp<- (data[,low] + data[,high])/2 
temp<-abs (data[,actual]-temp)/temp 


var«-paste0("Stagel QP",x," deviation") 


print (var) 
data[,var]«-temp 


BE2. 3. 45). 更 好 地 将 维度 转换 成 适合 分 析 需 求 的 维度 。 


O xs. 


建议 读者 采用 类 似 的 方法 探索 其 余 阶 段 的 各 个 数据 维度 


最 后 ， 该 是 研究 最 终结 果 的 时 候 了 。 此 时 采用 4 个 质量 参数 检测 最 终 混合 物 即 阶段 5 
的 成 品 。 根 据 这 4 个 参数 决定 最 终 产 品 是 弃 是 留 。 下 面 来 观察 结果 究竟 如 何 ; 

# Collecting all the 4 output parameters together 

(将 4 个 成 品 参数 汇集 起 来 ) 


> a<-c ("Output QualityParameterl", "Output QualityParameter2", 


"Output QualityParameter3","Output QualityParameter4") 


» head(data[,a]) 


级 的 探索 ， 并 且 在 所 有 其 他 阶段 〈 阶 


Output QualityParameterl Output QualityParameter2 Output QualityParameter3 Output QualityParameter4 


380.0000 
391.0821 
386.1621 


392.7473 
386.8247 
394.4137 


15625.00 
14202.98 
16356.87 
12883.11 
12485.48 
13013.65 


39000.00 
36257.61 
39566.61 
36072.71 
34779.19 
36613.40 


7550.000 
7151.502 
8368.513 
7164.511 
8256.930 
7257.613 


ene 当 大 数据 遇见 物 联网 一 一 智能 决策 解决 之 道 


从 上 面 4 个 参数 中 ， 对 制 成 品 做 出 最 终 判 断 ， 确 定 为 合格 品 还 是 不 合格 品 : 
> sample«-data[,a] 
> t(apply(sample,2,function (x) 


c (min-min (x) ,max-max (x) ,mean-mean (x) , sd=sd (x) ))) 


min max mean sd 
Output QualityParameterl 368.5864 478.445 414.2725 25.13131 
Output QualityParameter2 12127.8443 20796.288 15278.1903  1258.28580 
Output QualityParameter3 29222.8600 47995.730 37320.7930  3063.96085 
Output QualityParameter4 5724.6521 10595.364 8029.0012 643.45730 


如 料想 的 一 样 ， 成 品质 量 参数 的 标准 差 也 低 于 均值 。 
从 这 4 个 成 品质 量 参数 中 ， 应 用 一 些 加 权 算法 来 确定 洗涤 剂 的 最 终 质 量 。 最 终结 果 
如 下 : 


> summary (data$Detergent Quality) 
Bad Good 
225 775 


3233 ”本 节 小 结 


在 整个 练习 中 ， 仔 细 地 探讨 了 物 联网 生态 系统 中 各 种 不 同 的 数据 维度 。 现 在 对 每 个 
维度 所 提供 的 内 容 已 了 如 指 掌 ， 并 且 清 楚 地 知道 如 何在 分 析 中 加 以 利用 。 接 下 来 ， 将 探 
究 这 些 不 同 维度 之 间 的 关系 。 


33 ”研究 数据 关系 


工厂 生产 的 产品 最 终结 果 只 有 两 种 ， 即 良品 为 合格 ， 不 良品 则 为 不 合格 。 每 个 生产 
过 程 可 用 “Detergent Quality (洗涤 剂 质量 ) ”这 一 数据 维度 去 确定 上 述 结果 ， 将 与 最 终 
洗涤 剂 生产 相关 的 4 个 成 品质 量 参数 都 纳入 考量 ， 再 应 用 一 些 加 权 算 法 计算 出 来 。 最 终 
目标 是 找 出 最 终 产品 不 合格 的 原因 ， 这 表明 须 对 产品 质量 欠 佳 的 根源 寻根 问 底 。 这 些 原 
因 可 能 不 计 其 数 ， 但 如 何 确定 真正 的 原因 呢 ? 此 时 ， 研 究 数据 关系 的 任务 就 该 由 决策 科 
学 家 接力 完成 了 。 这 里 有 许多 自 变量 ， 这 些 变量 要 么 是 连续 变量 ， 要 么 是 分 类 变量 。 努 
力 探 清 这 些 独立 的 维度 对 成 品 的 最 终 影响 ， 这 也 正 是 为 何 研究 它们 之 间 关 系 的 原因 所 在 。 
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本 节 整 个 练习 可 以 简单 地 确定 为 双 变 量 分 析 ， 即 同时 分 析 两 个 维度 。 在 进入 分 析 数 据 之 
前 ， 先 了 解 双 变量 分 析 必 备 的 一 些 基础 结构 和 先决 条 件 。 


3.3.1 相关 性 是 什么 


相关 性 是 一 种 统计 技术 , 可 以 表明 两 两 变量 是 否 具有 强 相关 以 及 强 相 关 的 程度 。 例如 ， 
身高 和 体重 具有 相关 性 ， 高 个 子 往往 比 矮 个 子 更 重 。 这 种 关系 并 不 十 分 完美 ， 但 是 它 的 结 
果 能 够 让 人 了 解 这 两 个 维度 是 如 何 相关 的 。 在 身高 和 体重 的 例子 中 ， 可 以 说 “体重 随 着 
身高 的 增加 而 增加 ”， 而 且 在 大 多 数 情况 下 都 是 如 此 (当然 例外 的 情况 亦 不 可 避免 )。 

相关 性 检验 的 结果 被 称 为 相关 系数 (或 “r”) 。r 范 围 是 -1.0~+1.0。r 越 接近 +1 或 
-1， 这 两 个 变量 就 越 相 关 。 解 释 相关 系数 非常 简单 直观 。 如 果 身 高 与 体重 的 相关 系数 为 
0.8， 则 可 以 推断 两 者 存在 较 强 的 正 相关 关 系 。 随 着 身高 的 增加 ， 体 重 也 增加 ， 反 之 亦 然 。 

假如 学 生 上 学 缺勤 记录 与 学 习 成 绩 之 间 的 相关 系数 为 0.75， 则 可 推断 学 生 的 缺勤 记 
录 与 成 绩 之 间 存 在 负 相 关 关 系 。 随 着 缺勤 记录 的 增加 ， 成 绩 也 会 降低 。 

在 找 出 成 品质 量 参数 和 各 个 独立 维度 之 间 的 相关 性 之 前 ， 先 返回 了 解 是 如 何 定义 良 
品 或 不 良品 参数 的 。 在 前 面 的 用 例 中 ， 一 共有 4 个 成 品质 量 参数 用 于 洗涤 剂 生产 。 下 面 
观察 成 品 参数 如 何 与 合格 产品 提示 /不 合格 产品 提示 进行 比较 : 


> library (reshape2) 


> library (dplyr) 
# Selecting the required variables 
(选择 所 需 变量 ) 
> sample<-select (data, 
Output QualityParameterl, 
Output QualityParameter2, 
Output QualityParameter3, 
Output QualityParameter4, 
Detergent Quality) 


» melted «- melt(sample, id.vars - c("Detergent Quality")) 


d$Calculating the mean of the Quality parameter 
(计算 “质量 参数 ”的 均值 ) 
#across the Detergent Quality 


(遍历 “洗涤 剂 质量 ”的 所 有 参数 ) 


> dcast (melted,variable~Detergent Quality,mean) 
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variable Bad Good 
Output QualityParameterl 432.2532 409.0523 
Output QualityParameter2 16008.0896 15066.2840 
Output QualityParameter3 39101.2648  36803.8819 
Output QualityParameter4 8381.1793 7926.7560 


e W N 


#Calculating the Standard Deviation of the Quality parameter 
(计算 “质量 参数 ”的 标准 差 ) 
#across the accept flag 


(遍历 “合格 产品 提示 ”的 所 有 参数 ) 
> dcast (melted,variable~Detergent Quality, sd) 


variable Bad Good 
1 Output QualityParameterl 6.430605 26.11407 
2 Output QualityParameter2 533.959565 1327.09995 
3 Output QualityParameter3  1401.156940 3218.63850 
4 Output QualityParameter4 285.606162 681.37160 


当 观 察 Detergent Quality (洗涤 剂 质量 ) 所 有 质量 参数 的 均值 和 标准 差 时 ， 可 以 发 现 
Good (Rm) 5 Bad (不 良品 ) 之 间 的 标准 差 相 当 高 。 再 观察 “合格 产品 提示 ”的 全 部 
均值 ， 则 可 得 出 结论 ， 即 该 参数 的 值 越 低 ， 产 品 合格 的 概率 就 越 高 。 如 果 仔 细 观 察 标准 
差 ， 就 能 发 觉 这 种 关系 可 能 不 是 一 个 简单 而 直接 的 关系 。 比 如 Quality Parameter 1〈 质 量 
参数 1) ; 查看 它 的 均值 时 ， 可 以 假设 该 参数 值 越 高 ， 质 量 为 佳 的 可 能 性 就 越 低 ， 即 Bad 
(不 良品 ) =432 和 Good (和 良品) =409。 但 是 ， 如 果 细 看 标准 差 ， 就 能 理解 在 该 记录 中 
有 一 个 非常 大 的 变动 就 是 Good (良品 ) ， 即 为 26。 这 就 意味 着 优质 洗涤 剂 的 大 致 范围 可 
落 在 383 一 435， 而 Bad (不 良品 ) 的 范围 大 约 在 426—438 P3. Output Quality Parameter1 
(成 品质 量 参数 1) 在 Good (良品 ) 和 Bad (不 良品 ) 的 这 些 记录 之 间 出 现 明 显 的 重 登 。 
对 于 其 他 3 个 参数 ， 也 可 以 观察 到 类 似 的 情况 。 

接着 去 探究 其 他 变量 ， 看 看 自 变量 和 最 终结 果 之 间 的 主要 关系 到 底 如 何 。 

有 两 个 主要 的 独立 维度 类 别 : 生产 流程 层级 和 单个 阶段 /时 期 层级 的 维度 。 在 每 个 类 
别 中 创建 了 一 些 特征 ， 帮 助 收集 比 单个 维度 更 多 的 信息 。 每 次 凡是 发 现 一 些 有 趣 的 结果 ， 
就 需要 将 这 些 结果 添加 到 假设 列表 中 去 ， 最 终 创 建 出 数据 驱动 的 假设 矩阵 。 

对 于 生产 过 程 ， 现 有 的 最 重要 的 维度 是 流水 线 ID (Assembly Line ID ) 、 总 生产 时 间 
(total manufacturing time) 以 及 创建 的 特征 即 订 单 量 偏差 Corder quantity deviation) 。 下 
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HM Assembly Line ID 开始 ， 它 是 一 个 含有 两 个 层级 的 分 类 变量 。 接 着 来 观察 整 条 流水 
线 上 良品 与 不 良品 的 百分比 分 布 。 以 下 代码 汇总 了 整 条 流水 线 上 的 良品 与 不 良品 记录 的 
计数 ， 然 后 计算 每 个 类 别 中 不 良品 的 百分比 。 


> temp<- as.data.frame( 

tapply(data$Material ID, 

list(data$AssemblyLine ID,data$Detergent Quality), length)) 
> temp$bad perc«-temp$Bad/ (temp$Bad + temp$Good) 

» temp 


Bad Good bad perc 
Line 1 183 602 0.2331210 
Line 2 42 173 0.1953488 


如 上 所 示 ，Line | 不 良品 的 百分比 略 高 于 Line 2 的 。 但 是 差别 不 是 很 高 ， 目 前 还 不 
能 确定 下 面 的 观察 结果 是 否 真实 ， 或 者 是 数据 异常 造成 的 结果 。 无 论 如 何 ， 需 要 将 这 一 
点 情况 添加 到 DDH 矩阵 中 。 稍 后 再 通过 深入 研究 来 验证 结果 

紧 接 着 来 查 清 另 外 两 个 维度 的 关系 : 


fStudying the average time across Detergent Quality 
(研究 “洗涤 剂 质量 ”参数 的 平均 时 间 ) 
> tapply(data$Total Manufacturing Time mins, 
data$Detergent Quality,mean) 
Bad Good 
251.4667 244.1806 


#Studying the Standard Deviation in time across Detergent Quality 
(研究 “洗涤 剂 质量 ”参数 时 间 的 标准 差 ) 
> tapply (data$Total Manufacturing Time mins, 
data$ Detergent Quality, sd) 
Bad Good 
90.06981 82.18633 


术 结 果 没 有 显示 出 两 者 之 间 存 在 任何 显著 关系 。 为 了 确认 这 一 点 ， 下 面 来 研究 两 
者 之 间 的 关系 以 及 4 个 成 品质 量 参数 。 以 下 代码 将 生产 时 间 和 4 个 成 品质 量 参数 之 间 的 
关系 可 视 化 。 良 品 和 不 良品 分 别 由 两 种 不 同 的 颜色 表示 ， 结 果 如 图 3.7 所 示 。 


> ggplot (data, 


aes(x-Total Manufacturing Time mins, 
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Y=Output QualityParameterl)) + 


geom point (aes(color-Detergent Quality)) 


» ggplot (data, 
aes(x-Total Manufacturing Time mins, 
y-Output QualityParameter2)) + 
geom point (aes (color= Detergent Quality)) 


> ggplot (data, 
aes(x-Total Manufacturing Time mins, 
y-Output QualityParameter3)) + 
geom point (aes (color-Detergent Quality)) 


» ggplot (data, 
aes(x-Total Manufacturing Time mins, 
y-Output QualityParameter4)) 十 
geom point (aes (color= Detergent Quality)) 


new, accept flag 
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结果 清楚 地 表明 这 两 个 维度 之 间 没 有 任何 强 相关 关系 。 那 么 ， 下 面 接着 探讨 下 一 个 
维度 ， 即 〈 在 “3.2 通过 数据 〈 单 变量 ) 探索 物 联网 生态 系统 各 个 维度 ”中 创建 的 特征 ) 
订单 量 偏差 : 

> #Aggregating the data over Quantity Deviation + Detergent Quality 

CRA Quantity Deviation (订单 量 偏差 ) + Detergent Quality (洗涤 剂 质量 ) 的 数据 ) 

> #and creating a dataframe 

〈 并 创建 一 个 数据 框 ) 


> temp«-as.data.frame( 


二 tapply(data$Material ID, 
* list(data$Quantity Deviation,data$Detergent Quality), 
$ length) ) 


> #Calculating the percentage of Bad records in each category 
(计算 每 个 类 别 中 不 良品 记录 的 百分比 》 
> temp$Bad Perc<- temp$Bad/ (temp$Bad + temp$Good) 


> temp 


Bad Good Bad Perc 
High 89 221 0.2870968 
Low 74 293 0.2016349 
Medium 62 261 0.1919505 


上 述 结果 看 起 来 十 分 乐观 ! 可 以 观察 到 ， 当 偏差 很 高 时 ， 不 良品 的 比例 也 非常 高 。 
因此 ， 将 这 个 假设 添加 到 DDH ERER. 

接 下 来 研究 阶段 层级 的 维度 。 表 3.1 是 之 前 练习 中 探索 的 维度 列表 。 从 阶段 层级 上 对 
各 个 维度 开始 进行 探究 : 


表 3.1 维度 列表 


阶段 探索 /创建 的 维度 特征 ) 

先前 产品 、 产 品 变 化 提示 、 延 迟 提示 、 加 工时 间 、 资 源 、 两 种 原料 的 两 个 x2 质量 参数 、 
阶段 1 的 4 个 成 品质 量 参数 特征 ) 

阶段 2 | 产品 变化 提示 、 延 迟 提示 、 加 工时 间 、 阶 段 2 的 4 个 成 品质 量 参数 特征 ) 

延迟 提示 、 已 用 资源 、 两 种 已 用 原料 的 两 个 x 2 质量 参数 、4 种 产品 的 4 个 消耗 提示 〈 特 
(E) 、 阶 段 3 的 4 个 成 品质 量 参数 〈 特 征 ) 

阶段 4_| 先前 产品 、 延 迟 提示 、 加 工时 间 、 已 用 资源 

阶段 5 | 产品 变化 提示 、 延 迟 提示 、 加 工时 间 、 阶 段 5 的 3 个 成 品质 量 参数 〈 特 征 ) 
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3.3.2 ”探索 阶段 1 的 数据 维度 


前 面 为 “先前 产品 ”类 别 创 建 了 两 个 特征 : Stagel PrevProduct 1〈 阶 段 1 先前 产品 
1) 和 Stagel PrevProduct 2〔 阶 段 1 先前 产品 2) : 


> summary (data$Stagel PrevProduct 1) 
Others Product 545 
531 469 
> summary (data$stagel PrevProduct 2) 
Others Product 543 Product 545 Product 546 Product 547 Product 555 
105 352 469 26 30 18 


这 两 个 特征 之 间 的 差异 只 是 类 别 的 数量 。 先 从 各 个 角度 研究 第 一 个 特征 ， 然 后 根据 结 
果 再 继续 研究 下 一 个 。 类 似 于 以 前 的 探索 方法 ,尝试 研究 每 个 类 别 中 不 良品 记录 的 百分比 : 
> #Aggregating the data over Stagel PrevProduct 2 + Detergent Quality 
(将 Stagel PrevProduct 2 (阶段 1 先前 产品 2) + Detergent Quality (洗涤 剂 质量 ) 
的 数据 聚合 ) 
> #and creating a dataframe 
(并且 创建 一 个 数据 框 ) 


> temp«-as.data.frame( 


t tapply(data$Material ID, 
t list(data$Stagel PrevProduct 2,data$Detergent Quality), 
t length)) 


> $Calculating the percentage of Bad records in each category 
(计算 每 个 类 别 中 不 良品 记录 的 百分比 》 

> temp$Bad Perc<- temp$Bad/ (temp$Bad + temp$Good) 

> temp 


Bad Good Bad Perc 
Others 14 9111051333333 
Product 543 85 267 0.2414773 
Product 545 113 356 0.2409382 
Product 546 3 23 0.1153846 
Product 547 5 25 0.1666667 
Product 555 5 13 0.27g 


Product 543 和 Product 545 类 别 的 记录 数目 最 大 ， 而 且 两 者 都 没有 出 现 特别 有 趣 的 
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趋势 。 因 此 ， 不 再 去 探索 另外 一 个 特征 而 是 继续 往 前 分 析 。 
下 面 代 码 段 有 助 于 研究 阶段 1 中 的 延迟 提示 与 最 终 产 品 的 良品 /不 良品 之 间 的 关系 ; 


> summary (data$Stagel DelayFlag) 

No Yes 

637 363 

> 4Aggregating the data over Stagel DelayFlag + Detergent Quality 

(将 Stagel DelayFlag (阶段 延迟 提示 ) + Detergent Quality (洗涤 剂 质量 ) 的 数据 聚合 ) 
> #and creating a dataframe 

(并且 创建 一 个 数据 框 ) 


> temp«-as.data.frame( 


+ tapply(data$Material ID, 
十 list(data$Stagel DelayFlag,data$Detergent Quality), 
+$ length) ) 


> #Calculating the percentage of Bad records in each category 
(计算 每 个 类 别 中 不 良品 记录 的 百分比 》 
> temp$Bad Perc<- temp$Bad/ (temp$Bad + temp$Good) 
> temp 
Bad Good Bad Perc 
No 147 490 0.2307692 
Yes 78 285 0.2148760 


同样 ， 还 是 没有 发 现 比 较 乐观 的 结果 。 两 类 产品 的 不 良品 百分比 的 差异 微小 。 

现在 来 探查 使 用 的 原料 对 洗涤 剂 最 终 质量 的 影响 。 这 是 启发 法 驱动 假说 中 最 重要 的 
假设 之 一 。 原料 属 性 是 一 个 连续 变量 ， 所 以 需要 计算 它们 之 间 的 相关 性 ， 以 研究 原料 和 
成 品质 量 参数 之 间 的 关系 。 

> cor(data$Stagel RM1 QParameterl,data$Output QualityParameterl) 

[1] 0.5653402 

> cor(data$Stagel RM1 QParameterl,data$Output QualityParameter2) 

[1] 0.4431995 


> cor(data$Stagel RM1 QParameterl,data$Output QualityParameter3) 
[1] 0.3992361 


> cor(data$Stagel RM1 QParameterl,data$Output QualityParameter4) 
[1] 0.4460737 


相关 性 检验 表明 两 者 之 间 几 乎 不 存在 任何 关系 。 为 了 进一步 调查 ， 将 结果 可 视 化 ， 
看 看 能 否 找 到 直观 有 用 的 信息 。 以 下 代码 绘制 出 原料 和 成 品质 量 参数 之 间 的 散 点 图 ( 见 
图 3.8) ， 用 不 同 颜色 区 分 良品 和 不 良品 记录 。 
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fPlotting a scatter plot of Raw Material Quality parameter and all 4 output 


quality parameters 


(绘制 原料 质量 参数 和 全 部 4 个 成 品质 量 参数 的 散 点 图 ) 


> ggplot (data, 
aes(x-Stagel RM1 


geom point (aes (co 


> ggplot (data, 
aes(x-Stagel RM1 


geom point (aes (co 


» ggplot (data, 
aes(x-Stagel RM1 


geom point (aes (co 


» ggplot (data, 
aes(x-Stagel RM1 


geom point (aes (co 
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如 上 所 示 ， 原 料 1 的 质量 参数 和 最 终 产品 的 成 品质 量 参数 之 间 肯 定 存 在 一 定 的 关系 。 
简 而 言 之 ， 观 察 到 在 数据 中 大 多 数 不 良品 超出 了 阔 值 。 良 品 和 不 良品 之 间 一 定 存在 重合 ， 
这 可 能 是 由 于 迄今 尚未 观察 到 的 一 些 潜在 特征 造成 的 。 但 是 ， 基 于 以 上 结果 ， 此 刻 可 以 
笃定 地 将 观测 值 添加 到 DDH 矩阵 中 。 

如 果 在 4 个 不 同 的 成 品质 量 参数 上 ， 采 用 同样 的 方法 将 原料 1 的 第 二 个 质量 参数 可 
视 化 并 观察 它 ， 则 会 发 现 非常 相似 的 信息 。 从 相关 性 的 角度 来 看 ， 这 种 关系 可 能 不 是 很 
强 ， 但 是 在 进一步 分 析 中 ， 确 实 存在 一 些 能 够 帮助 找 出 根本 原因 的 模式 ， 如 图 3.9 所 示 。 


> ggplot (data, 


aes(x-Stagel RM1 QParameter2,y-Output QualityParameterl1)) + 
geom point (aes (color-Detergent Quality)) 


» ggplot (data, 
aes(x-Stagel RM1 QParameter2,y-Output QualityParameter2)) + 
geom point (aes (color= Detergent Quality)) 


» ggplot (data, 
aes(x-Stagel RM1 QParameter2,y-Output QualityParameter3)) + 
geom point (aes (color= Detergent Quality)) 


» ggplot (data, 


aes(x-Stagel RM1 QParameter2,y-Output QualityParameter4)) + 
geom point (aes (color= Detergent Quality)) 


为 了 观察 阶段 层级 最 终 质量 参数 中 的 偏差 情况 ， 创 建 出 了 另外 一 个 特征 ， 即 Stagel_ 


QP1_deviation〈 阶 段 1 质量 参数 1 偏差 ) 以 及 其 他 。 下 面 运算 相关 性 检验 ， 观 察 这 两 者 
是 否 存在 任何 显著 关系 : 


> cor(data$Stagel QP1 deviation,data$Output QualityParameterl) 
[1] 0.05035061 


> cor(data$Stagel QP1 deviation,data$Output QualityParameter2) 
[1] -0.05433026 


» cor(data$Stagel QP1 deviation,data$Output QualityParameter3) 
[1] -0.0584961 
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> cor(data$Stagel QP1 deviation,data$Output QualityParameter4) 
[1] -0.03834813 


Output. QualityParamtert 


E 
s 
E 
s 
s 
£ 
z 
3 
o 
3 
号 
E 
E 


Stage! RM1. OParameter2 Stage, RM1 OParameter? 


Output QualityParamtera 


Stage1 RI 


在 这 里 注意 到 ， 


Output QualityParamter4 


| OParameler? ! Stage1 RM1 OParameter2 


图 3.9 
相关 性 检验 表明 这 两 个 维度 之 间 绝 对 没有 任何 关系 。 对 于 阶段 1 的 其 


他 3 个 质量 参数 也 是 如 此 。 为 了 安全 起 见 ， 下 面 用 散 点 图 可 视 化 来 验证 是 否 存在 可 见 的 模 
式 。 以 下 可 视 化 图 表 ( 见 图 3.100. 展示 了 阶段 1 的 质量 参数 1 与 (全 部 4 个) 最 终 成 品质 


量 参 数 的 散 点 图 。 因 
复查 DDH 和 矩阵 


维度 。 对 阶段 2、3、 
在 分 析 过 程 中 ， 


此 ， 可 以 得 出 结论 : 这 两 者 不 存在 可 用 以 研究 的 清晰 关系 或 有 趣 模式 。 


至 今 为 止 ， 已 经 对 数据 进行 了 深入 的 研究 ， 并 探索 了 生产 层级 和 阶段 1 的 所 有 重要 


4 fil 5 也 可 以 采用 同样 的 方法 进行 研究 分 析 。 
发 现 了 一 些 有 趣 的 结果 ， 而 有 些 结果 根本 没有 任何 意义 。 现 在 稍 事 


休息 ， 回 去 复查 DDH， 把 在 数据 挖掘 和 关系 研究 阶段 中 收集 到 的 所 有 假设 罗列 出 来 〈 见 


表 3.2) 。 
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表 3.2 ”相关 假设 


数据 维度 假设 
订单 量 偏差 由 于 订单 量 与 实际 生产 量 之 间 的 偏差 增加 ， 生 产 出 劣质 洗涤 剂 的 可 能 性 也 增加 
流水 线 ID Line 1 生产 出 更 多 劣质 洗涤 剂 的 可 能 性 总 体 较 高 
阶段 1 原料 特性 | 原料 质量 参数 对 洗涤 剂 的 最 终 质量 产生 影响 
阶段 3 原料 特性 | 原料 质量 参数 对 洗涤 剂 的 最 终 质量 产生 影响 
阶段 3 资源 在 阶段 3 生产 期 间 使 用 的 资源 对 洗涤 剂 的 最 终 质量 产生 影响 
阶段 3 延迟 在 阶段 3 中 生产 的 延迟 会 影响 洗涤 剂 的 最 终 质 量 
阶段 3 资源 在 阶段 4 生产 过 程 中 使 用 的 资源 会 影响 洗涤 剂 的 最 终 质量 


O 注意: 


关于 阶段 3 和 以 前 未 曾 讨 论 过 的 其 他 内 容 的 洞 见 ， 都 是 在 阶段 2、3、4 和 5 中 研究 
数据 关系 时 收集 而 来 的 。 对 每 个 阶段 都 深入 讨论 超出 了 本 书 的 范围 。 建 议 读者 对 其 他 阶 
段 数据 进行 探索 练习 后 再 继续 学 习 。 
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oo 


A dm! 


当 大 数据 遇见 物 联 网 一 一 智能 决策 解决 之 道 


前 面 从 数据 探查 和 数据 关系 研究 的 练习 中 产生 的 假设 ， 几 乎 没有 再 派生 更 多 的 假设 


。 然 而 ， 这 些 假 设 仍然 不 是 具体 的 结果 。 为 了 得 到 一 个 更 为 现实 和 让 人 充满 信心 的 答 


须 通过 统计 学 证 明 这 些 结果 。 在 下 一 节 中 ， 将 仔细 研究 如 何 验证 这 些 结果 。 


3.4 探索 性 数据 分 析 


这 一 部 分 在 问题 解决 堆栈 中 也 被 称 为 “验证 性 数据 分 析 ”。 一 般 而 言 ， 通 过 互联 网 


和 其 


他 学 习 资 源 所 接触 的 问题 ， 即 一 个 简称 为 ECR9 的 堆栈 ， 亦 即 探索 性 数据 分 析 + 验 证 


性 数据 分 析 + 根 本 原因 分 析 三 者 的 组 合体 。 这 与 我 们 所 考虑 的 方法 相同 ， 即 探索 性 数据 分 
析 〈Exploratory Data Analysis, EDA) ， 这 个 方法 让 我 们 理解 “发 生 了 什么 ”。 接 着 是 验 
证 性 数据 分 析 CConfirmatory Data Analysis, CDA) ， 采 用 统计 检验 来 巩固 练习 的 结果 。 
最 后 ， 会 使 用 根本 原因 分 析 (Root Cause Analysis, RCA) 来 回答 “为 什么 ”的 问题 。 本 
书 在 目前 的 方法 中 ， 采 用 了 相同 的 方法 ， 但 是 命名 规则 略 有 不 同 ， 下 面 已 把 步 又 分 解 得 
非常 细 化 了 ， 如 图 3.11 所 示 。 


识别 有 用 数据 ~ 


TREE AS 探索 数据 的 每 一 个 
- 现 有 数据 有 哪些 ? 维度 〈 单 变量 ) 
- 现 有 数据 种 类 有 哪些 ? d 
-遗漏 了 哪些 数据 ? 查验 数据 研究 数据 关系 
-数据 表明 了 什么 ? ( 双 变 量 ) 
-如 何 改进 数据 ? 
(特征 ) 研究 数据 
-数据 中 存在 哪些 关系 ? 
-各 个 维度 的 数据 是 如 何 相 
的 


-如 果 是 模式 ， 这 种 模式 显著 且 
具有 价值 吗 ? 


根本 原因 分 析 
认真 仔细 地 为 每 一 个 洞 见 回答 “为 什么 ” 


图 3.11 
现在 进入 了 探索 性 数据 分 析 阶 段 ， 也 就 是 要 去 验证 在 数据 中 观察 到 的 洞 见 和 模式 。 


© ECR X Exploratory Data Analysis +Confirmatory Data Analysis + Root Cause Analysis 的 缩写 ， 即 探索 性 数据 分 析 + 验 证 性 数 
据 分 析 + 根 本 原因 分 析 。 一 一 译 者 注 
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下 面 从 理解 如 何 实现 这 一 目标 开始 。 回 顾 前 面 的 学 习 过 程 ， 先 是 解析 问题 ， 之 后 假设 可 
能 造成 问题 原因 存在 的 不 同 因素 ， 并 创建 一 个 可 以 迭代 问题 、 解 决 问题 和 让 问题 演变 的 
框架 ， 以 及 探索 和 研究 数据 ， 最 后 找到 可 以 回答 疑问 的 模式 。 此 时 ， 则 需要 应 用 各 种 统 
计 技术 来 验证 我 们 的 发 现 。 


3.4.1 那么 ， 应 该 如 何 验证 发 现 
这 里 运用 一 种 假设 检验 的 统计 技术 ， 帮 助 判别 我 们 所 关心 的 那些 假设 为 真 的 概率 有 


多 高 。 
34.2 ”假设 检验 是 如 何 起 作用 的 


假设 检验 主要 对 一 种 情况 的 两 个 互 斥 陈述 进行 评估 ， 用 以 判别 其 中 的 一 个 陈述 是 否 
须 由 样本 数据 提供 充分 的 支持 。 当 我 们 说 一 个 发 现 结果 具有 统计 意义 时 ， 这 表明 我 们 的 
假设 是 正确 的 ， 而 不 是 仅仅 当 作 异常 现象 来 观察 。 

在 用 例 里 ， 从 我 们 早期 练习 中 确定 了 一 些 假设 /场景 。 下 面 将 检验 这 些 假设 ， 查 明 它 
们 是 否 有 效 ， 或 者 仅仅 是 因为 数据 中 的 噪声 才 出 现 的 。 

假设 检验 技术 取决 于 以 下 几 点 : 

Q 被 分 析 的 结果 变量 的 类 型 (连续 型 或 类 别 型 》。 

口 、 调 查 中 对 照 组 ”的 数量 。 

D ”对照 组 是 否 独 立 。 

下 面 曾 述 有 助 于 更 清楚 地 理解 这 一 点 。 数 据 维 度 可 为 连续 型 或 类 别 型 ， 换 言 之 ， 含 
有 值 (Yes/No) 的 Delay Flag (延迟 提示 ) 属于 类 别 型 的 ， 而 以 分 钟 为 单位 的 生产 时 间 
却 是 连续 型 的 。 对 于 两 个 独立 的 分 类 变量 /连续 变量 或 分 类 变量 + 连续 变量 ， 会 采取 不 同 
的 检验 方法 。 同 样 地 ， 根 据 分 类 变量 中 的 对 照 组 数量 ， 检 验方 法 也 会 有 所 不 同 。 例 如 ， 
Delay Flag 有 两 个 值 ， 即 Yes/No, 而 资源 变量 有 多 个 层级 , 如 Resource 1, Resource 2 等 。 
检验 方法 最 终 也 需 根据 那些 对 照 组 进行 一 一 不 管 它们 是 独立 的 或 不 独立 的 。 在 用 例 中 ， 
那些 数据 维度 都 是 独立 的 。 接 着 可 通过 下 面 的 例子 来 研究 因 变量 和 自 变 量 。 假 设 一 家 制 
药 公司 想 要 检验 新 药 降 血 压 的 有 效 性 ， 他 们 会 从 同一 个 人 在 服用 新 药 之 前 和 之 后 的 血压 
记录 中 采集 数据 。 这 些 数据 在 检验 前 后 都 是 从 同一 个 人 收集 而 来 的 ， 因 此 这 些 维度 都 是 
不 独立 的 。 如 果 数 据 分 别 从 两 个 单独 的 小 组 收集 ， 即 一 组 服用 了 药物 ， 另 一 组 则 没有 服 
用 药物 ， 那 么 这 些小 组 的 数据 维度 就 是 独立 的 。 

以 下 备 忘 表 OLX 3.3) 有 助 于 理解 在 用 例 中 应 该 采用 哪 种 统计 检验 。 


i: comparison group —— iE it 
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X33 备 忘 表 


类 别 型 
卡 方 检验 


工 检验 /方差 分 析 
回归 分 析 


后 续 将 根据 需要 详细 阐述 所 需 的 检验 方法 。 下 面 先 介绍 一 个 简单 的 检验 方法 。 表 3.4 


类 别 型 


列 出 了 不 同 的 假设 及 其 因 变量 和 自 变量 类 型 以 及 验证 假设 相应 的 检验 方法 。 
表 3.4 假设 检验 


Bo 因 变 量 维度 检验 方法 
流水 线 合格 提示 
类 别 型 类 别 型 卡 方 检验 
Line 1 生产 出 更 多 劣质 洗涤 剂 的 可 (2 级 ) (2 级 ) 
已 | 总 fX à» 线 
能 性 体 较 高 id 成 品质 量 参数 
类 别 型 ssim TÉ 
Q JD apaga 
订单 量 偏差 合格 提示 
别 型 TIEN 卡 方 检验 
由 于 订单 量 与 实际 生产 量 之 间 的 偏 pum Mae 
JR, Pb som 
"n 加 jj Is] BS 
PEN 类 别 型 iiri 方差 分 析 
连续 变量 
(3 级 ) 
阶段 1 原料 质量 参数 对 洗涤 剂 的 最 | 2x2 原料 质量 参数 成 品质 量 参数 ER 
终 质量 产生 影响 连续 变量 连续 变量 
阶段 3 原料 质量 参数 对 洗涤 剂 的 最 | 22 原料 质量 参数 品质 量 参数 
终 质量 产生 影响 连续 变量 连续 变量 
资源 人 D 合格 提示 
在 阶段 3 生产 期 间 使 用 的 资源 对 洗 , 
j 分 类 变量 类 别 型 卡 方 检验 
涤 剂 的 最 终 质 量 产生 影响 
涤 剂 的 最 终 质 量 产生 影响 pa wen 
阶段 3 延迟 提示 合格 提示 
A 生产 的 延迟 会 影响 洗涤 
Manus | gaan Jn I 
R (2 级 ) (2 级 ) 


? LDA: Latent Dirichlet Allocation， 即 潜在 狄 利克 雷 分 布 。QDA: Quantitative Descriptive Analysis， 即 定量 描述 分 析 。 一 一 译 
者 注 
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类 别 1 


从 第 一 个 假设 开始 分 析 , Line 1 流水 线 生产 更 多 劣质 洗涤 剂 的 可 能 性 总 体 较 高 。 为 了 
验证 这 个 检验 ， 需 要 证 明 两 个 数据 维度 之 间 存 在 一 个 关系 ， 即 流水 线 维度 和 洗涤 剂 的 最 
终 质量 不 是 两 个 独立 的 维度 ， 而 是 这 两 者 之 间 存 在 一 些 关系 。 一 旦 证 明了 这 种 关系 ， 就 
可 以 断定 生产 过 程 中 所 用 的 流水 线 确实 对 洗涤 剂 的 质量 产生 影响 。 

此 处 有 两 个 维度 作为 分 类 变量 , 即 流水 线 ID 所 含有 的 两 个 不 同 的 值 Line 1 和 Line 2. 
同样 ， 洗 涤 剂 的 质量 也 是 一 个 包含 有 良品 /不 良品 这 两 个 值 的 分 类 变量 。 在 这 种 情况 下 ， 
因 变 量 和 自 变量 都 属于 类 别 型 的 ， 因 此 采用 的 统计 检验 为 卡 方 独立 性 检验 。 为 了 进行 统 
计 检验 ， 还 需 建立 一 个 原 假设 (H0) 和 备 择 假设 HD) 。 原 假设 本 质 上 极其 麻烦 ， 因 为 
它 总 是 假设 我 们 努力 证 明 的 任何 事情 都 没有 发 生 。 而 备 择 假设 (H1) 恰恰 与 原 假设 相反 。 

这 里 的 统计 检验 拥有 以 下 特征 。 

Q H0: 用 于 生产 的 流水 线 与 所 生产 的 洗涤 剂 的 

0 Hl 用 于 生产 的 流水 线 与 所 生产 的 洗涤 剂 的 


34.4 卡 方 检验 的 原理 是 什么 


假设 有 一 个 结果 和 一 个 被 认为 可 能 有 影响 的 变量 〈 在 用 例 中 ， 这 个 结果 指 的 是 洗涤 
剂 的 质量 ， 有 关 的 变量 则 为 所 使 用 的 流水 线 ) 。 于 是 采用 有 关 变 量 或 者 不 用 有 关 变 量 ， 
分 别 去 观察 结果 的 观测 值 。 然 后 用 统计 推导 的 公式 计算 期 望 值 。 从 结果 中 ， 可 计算 出 所 
观察 到 的 偏差 ， 并 且 极 有 可 能 再 观察 到 一 些 偏差 。 接 着 根据 期 望 值 调整 偏差 并 且 对 样本 
集 数 做 出 调整 。 卡 方 统计 量 是 衡量 这 种 偏差 的 一 个 度量 ， 用 以 证 明 观 察 到 的 结果 是 随机 
的 或 者 不 可 能 是 随机 的 。 

全 球 知名 的 统计 学 家 计算 出 了 一 个 名 为 卡 方 表 的 查询 表 。 对 于 观察 到 的 偏差 ， 可 用 
该 表 来 计算 这 个 偏差 为 偶然 的 概率 有 多 大 。 如 果 这 个 概率 Cp 值 ) 非常 小 ， 那 么 可 以 很 肯 
定 地 得 出 结论 : 这 个 偏差 不 是 偶然 的 。 有 关 变 量 和 结果 之 间 确 实 存在 一 些 关系 。 认 为 任 
何 一 个 p 值 如 果 低 于 5% 都 是 很 小 的 。 另 一 方面 ， 如 果 p 值 大 于 5%， 那 么 可 以 得 出 结论 
为 : 所 看 到 的 观测 值 /关系 纯粹 属于 偶然 的 ， 因 此 两 者 之 间 不 存在 任何 关系 。 总 而 言 之 ， 
卡 方 检验 是 一 个 衡量 偏差 的 度量 ， 与 预先 计算 的 数值 进行 比较 ， 能 够 告诉 我 们 这 些 偏差 
的 概率 有 多 大 。 

R 语言 中 的 卡 方 检验 是 完全 自动 化 的 ， 不 需要 为 检验 而 编写 代码 。 下 面 选用 R 语言 
stats 包 中 现 有 的 chisq.test) K ZI: 


34.3 验证 假设 


最 终 质量 之 间 没 有 关系 。 
最 终 质量 


质 
质量 之 间 存 在 关系 。 


终 
终 
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> #Creating a table of the frequency count for the two variables 
(为 两 个 变量 创建 一 个 频率 计数 表 ) 
> #that is, Outcome v/s Variable of Interest 
( 即 结果 v/s 有 关 变 量 ) 
> sample<-table (data$AssemblyLine ID,data$Detergent Quality) 
> sample fView the actual table 
Bad Good 

Line 1 183 602 

Line 2 42 173 
> 
> #Perform the Chi Squared Test of Independence 
(进行 卡 方 独立 性 检验 ) 


> chisq.test (sample) 
Pearson's Chi-squared test with Yates' continuity correction? 


data: sample 

X-squared = 1.1728, df = 1, p-value = 0.2788 

可 以 看 到 ， 上 述 结果 中 p 值 = 0.27， 即 27%， 这 个 值 非常 高 。 因 此 很 容易 就 得 出 这 样 
的 结论 : 原 假 设 是 正确 的 ， 这 意味 着 流水 线 和 洗涤 剂 质量 是 两 个 独立 的 维度 ， 两 者 之 间 
不 存在 任何 关系 。 因 此 ， 可 以 从 DDH 矩阵 中 剔除 一 个 假设 。 

在 继续 分 析 之 前 ， 还 需 进行 多 次 检查 。 通 过 采用 (没有 留意 到 的 ) 一 些 加 权 算法 ， 
将 洗涤 剂 的 4 个 成 品质 量 参数 组 合 起 来 ， 计 算 洗 涤 剂 的 最 终 质 量 。 如 果 一 个 参数 给 出 了 
超出 范围 的 值 ， 最 终结 果 可 能 为 “不 良品 ”或 “良品 ”。 因 此 ， 我 们 不 是 试图 找 出 最 终 质 
量 和 流水 线 之 间 是 否 存在 关系 〈 即 良品 /不 良品 ) ， 而 实际 上 是 要 继续 找 出 流水 线 和 任何 
一 个 成 品质 量 参数 之 间 是 否 存在 关系 。 在 这 里 ， 需 要 进行 的 检验 方法 会 随 着 维度 类 型 的 
变化 而 变化 。 现 在 已 有 相同 的 自 变量 ， 即 流水 线 ID (此 为 含有 2 级 分 类 的 类 别 型 变量 ) ， 
以 及 因 变量 成 品质 量 参数 此 为 连续 型 变量 ) 。 因 而 可 以 考虑 4 个 变量 中 的 任何 一 个 。 
但 在 此 处 不 会 使 用 前 面 的 卡 方 检验 。 在 这 种 情况 下 须 采 用 双 样 本 T 检验 〈 请 参阅 上 一 节 
中 的 备 忘 表 ) o 

那么 ， 什 么 是 双 样本 工 检验 ? 

双 样本 T 检验 是 最 常用 的 假设 检验 之 一 。 它 可 以 比较 两 组 间 的 平均 差异 是 否 真 的 非 


”用 Yates 连续 性 校正 进行 皮尔 逊 卡 方 检验 。 一 一 译 者 注 
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显著 或 者 只 是 随机 偶然 出 现 的 。 就 用 例 而 言 ， 这 两 个 组 指 的 是 两 条 不 同 的 流水 线 (Line 


e, 可 用 双 样本 工 检验 去 验证 这 两 个 维度 是 否 没 有 存在 任何 关系 ， 的 确 是 相互 
独立 的 ， 或 者 验证 它们 是 否 相 关 从 而 造成 流水 线 对 相应 的 成 品质 量 参数 产生 影响 。 任 何 
假设 检验 的 开始 过 程 都 与 卡 方 检验 中 所 示 的 过 程 完全 类 似 ， 首 先 要 定义 一 
个 备 择 假设 。 由 于 用 例 有 4 个 不 同 的 成 品质 量 参数 ， 因 此 可 单独 检验 流水 线 与 任何 一 

成 品质 量 参数 之 间 是 否 存在 关系 。 


因此 ， 此 处 的 双 样本 T 检 验 〈 比 如 成 品质 量 参数 1) 具有 以 下 特征 。 

口 Ho: 用 于 生产 的 流水 线 与 所 生产 的 洗涤 剂 的 质量 参数 1 之 间 没 有 关系 。 
Q Hl 用 于 生产 的 流水 线 与 所 生产 的 洗涤 剂 的 质量 参数 1 之 间 存 在 关系 。 
与 卡 方 检验 类 似 ， 选 择 及 语言 stats 包 中 的 t.test0 函 数 自动 进行 了 检验 : 


> t.test(dataSOutput QualityParameterl-data$AssemblyLine ID) 

Welch Two Sample t-test? 

data: data$Output QualityParameterl by data$AssemblyLine ID 

t = -0.87375, df = 341.76, p-value = 0.3829 

alternative hypothesis: true difference in means is not equal to o? 


95 percent confidence interval:? 
-5.478854 2.108418 


sample estimates:? 
mean in group Line 1 mean in group Line ge 
413.9102 415.5954 


结果 显示 Pp 值 非常 高 ，HO 原 假设 是 正确 的 。 因 此 流水 线 和 质量 参数 1 是 两 个 独立 的 


维度 ， 即 流水 线 对 质量 参数 1 不 产生 影响 。 


下 面 尝试 应 用 与 质量 参数 1 相同 的 方法 对 其 他 3 个 成 品质 量 参数 进行 工 检验 ， 


© 


韦 尔 奇 双 样 本 工 检验 。 一 一 译 者 注 


? 备 择 假设 ， 正确。 均值 差异 不 等 于 0。 一 一 译 者 注 
9 95% 的 置信 区 间 。 一 一 译 者 注 

9 样本 估计 。 一 一 译 者 注 

? Line 1 和 Line 2 两 组 维度 的 均值 。 一 一 译 者 注 


“90。 当 大 数据 遇见 物 联 网 一 一 智能 决策 解决 之 道 


> t.test(data$SOutput QualityParameter2-data$AssemblyLine ID) 
Welch Two Sample t-test 
data: data$Output QualityParameter2 by data$AssemblyLine ID 
t = -5.2088, df = 307.57, p-value = 3.487e-07 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-742.4911  -335.3277 
sample estimates: 
mean in group Line 1 mean in group Line 2 
15162.32 15701.23 
> t.test(dataSOutput QualityParameter3-data$AssemblyLine ID) 
Welch Two Sample t-test 
data: data$Output QualityParameter3 by data$AssemblyLine ID 
t = -6.4768, df = 315.18, p-value = 3.596e-10 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-2067.649 -1104.125 
sample estimates: 
mean in group Line 1 mean in group Line 2 
36979.83 38565.71 


> t.test(dataSOutput QualityParameter4~data$AssemblyLine ID) 


Welch Two Sample t-test 
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data: data$Output QualityParameter4 by data$AssemblyLine ID 


t = -3.1554, df = 309.4, p-value = 0.001761 


alternative hypothesis: true difference in means is not equal to 0 


95 percent confidence interval: 
1272534233 -63.13942 


sample estimates: 


mean in group Line 


1 mean in group Line 2 


7992.937 8160.678 


观察 上 述 结果 并 留意 p 值 时 ， 可 看 到 p 值 很 低 〈 远 低 于 596) ， 从 这 可 推断 出 原 假设 


可 被 拒绝 。 因 此 ， 可 以 得 H 


结论 : 流水 线 确实 对 成 品质 量 参数 2、3 和 4 产生 影响 。 


因此 ， 验 证 了 前 面 矩 阵 中 的 第 一 个 和 第 二 个 假设 。 接 下 来 继续 验证 第 三 个 和 第 四 个 


假设 。 


34.5 验证 假设 


类 别 2 


这 里 需要 验证 的 假设 是 ， 当 订单 量 和 实际 生产 量 之 间 的 偏差 增加 时 ， 生 产 出 劣质 洗 


涤 剂 的 可 能 性 也 会 增加 。 


类 似 于 前 面 的 假设 ， 此 处 有 两 个 类 别 的 数据 : 第 一 个 类 别 ， 因 变量 指 的 是 最 终结 
即 良品 /不 良品 。 第 二 个 类 别 ， 因 变量 〈 连 续 型 ) 为 4 个 成 品质 量 参数 之 一 。 第 一 种 情况 


与 前 面 的 假设 完全 相似 ， 卓 
$ 


Burn] 


『 自 变量 和 因 变 量 都 是 类 别 型 的 。 那 么 ， 直 接 定义 HO 和 H1, 


日 RR 语言 现 有 的 函数 进行 卡 方 检验 。 

原 假设 和 备 择 假设 定义 如 下 。 

Q H0: 订单 量 与 生产 量 和 所 生产 的 洗涤 剂 最 终 
口 Hl 订单 量 与 生产 量 和 所 生产 的 洗涤 剂 最 终 


量 之 间 的 数量 偏差 没有 关系 。 
量 2 


质 
质量 之 间 的 数量 偏差 存在 关系 。 


> #Creating a table of the frequency count for the two variables 


(为 两 个 变量 创建 一 个 频 


率 计数 表 ) 


> #that is, Outcome v/s Variable of Interest 


( 即 结果 v/s 有 关 变 量 ) 


> sample<-table (data$Quantity Deviation,data$Detergent Quality) 
> sample #View the actual table (查看 实际 的 表 ) 


“92。 当 大 数据 遇见 物 联 网 一 一 智能 决策 解决 之 道 


Bad Good 

High 89 221 

Low 74 293 

Medium 62 261 
> 
> #Perform the Chi Squared Test of Independence 
(进行 卡 方 独 立 性 检验 ) 
> chisq.test(sample) 


Pearson's Chi-squared test 


data: sample 

X-squared = 10.027, df = 2, p-value = 0.006646 

p 值 略 高 于 所 期 望 的 临界 值 ， 即 5%， 这 表明 原 假设 为 真 。 生 产 订单 量 的 偏差 对 生产 
的 洗涤 剂 质量 没有 影响 。 卡 方 检验 的 本 质问 题 在 于 ， 分 类 数据 的 方式 须 从 多 个 角度 去 思 
考 。 假 设 有 关 变 量 是 “年 龄 ”， 把 年 龄 分 成 5 组 ， 如 0 一 18、18 一 35 等 。 卡 方 检验 永远 
无 法 确定 哪些 分 组 是 否 有 意义 ， 它 只 会 对 分 组 中 所 含 的 值 进 行 检验 。 

回顾 前 面 的 数据 探查 练习 ， 已 根据 百 分 位 数值 创建 了 一 个 特征 ， 即 第 30 百 分 位 数 以 
下 的 值 为 低 ， 落 在 约 30—70 百 分 位 数 的 值 为 适中 等 。 为 了 研究 模式 ， 下 面 稍 微调 整 一 下 
这 些 数字 ， 这 样 能 让 这 些 数字 仍然 处 于 大 致 百 分 位 数 的 范围 内 ， 但 是 可 能 更 有 意义 : 

> #Calculating the deviation between Order and Produced Quantity 


(计算 订单 量 和 生产 量 之 间 的 偏差 ) 
> temp<- (abs (data$Order Quantity - data$Produced Quantity)) 


> data$Quantity Deviation new <- 
as.factor (ifelse (temp<= 140,"Low", 
ifelse (temp<= 280,"Medium","High"))) 

##View the frequency of each category 
(查看 每 个 类 别 的 频率 ) 
> summary (data$Quantity Deviation new) 

High Low Medium 

351 365 284 


现在 稍微 修改 了 在 数量 偏差 中 创建 分 区 的 规则 ， 接 下 来 对 新 创建 的 维度 进行 卡 方 


检验 。 


js 
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> fCreating a table of the frequency count for the two variables 
(为 两 个 变量 创建 一 个 频率 计数 表 ) 
> #that is, Outcome v/s Variable of Interest 

( 即 结果 v/s 有 关 变 量 ) 
> sample«-table(data$Quantity Deviation new,data$Detergent Quality) 
> sample # View the actual table (查看 实际 的 表 ) 

Bad Good 

High 100 251 

Low 74 291 

Medium 51 233 
> 
> #Perform the Chi Squared Test of Independence 
(进行 卡 方 独立 性 检验 ) 


> chisq.test (sample) 
Pearson's Chi-squared test 


data: sample 

X-squared - 11.62, df - 2, p-value - 0.002998 

此 刻 , 清楚 地 看 到 p 值 已 经 下 降 到 5% 以 下 , 因此 可 以 拒绝 原 假设 。 这 样 就 得 出 结论 : 
订单 量 和 生产 量 之 间 的 数量 偏差 与 所 生产 洗涤 剂 的 最 终 质量 确实 存在 关系 。 

接着 深入 细致 地 观察 更 多 信息 , 现在 去 了 解 Qunatity Deviation new (新 的 数量 偏差 ) 
维度 和 洗涤 剂 的 每 个 单独 成 品质 量 参数 之 间 是 否 存在 任何 关系 。 在 探索 维度 时 ， 已 经 知 
道 了 有 一 个 类 别 型 的 自 变量 和 一 个 连续 型 的 因 变量 。 首先 想到 的 是 像 验 证 前 面 的 假设 一 
样 ， 用 T 检验 来 验证 这 个 假设 。 遗 憾 的 是 ， 这 是 行 不 通 的 。 那 么 ， 下 面 先 定义 HO 和 
HI 去 试 一 试 。 
回想 之 前 的 假设 ， 将 原 假设 和 备 择 假设 定义 如 下 。 
口 H0: 订单 量 与 生产 量 和 所 生产 的 洗涤 剂 的 质量 参数 1 之 间 的 数量 偏差 不 存在 关系 。 
口 Hl: 订单 量 与 生产 量 和 所 生产 的 洗涤 剂 的 质量 参数 1 之 间 的 数量 偏差 存在 关系 。 
如 果 像 前 面 情况 那样 进行 一 个 简单 的 双 样本 工 检验 ， 则 会 出 现 以 下 错误 : 


> t.test(data$Output QualityParameterl-data$Quantity Deviation new) 


Error in t.test.formula(data$Output QualityParameterl ~ 
data$Quantity Deviation new) : 


grouping factor must have exactly 2 levels 


“94。 当 大 数据 遇见 物 联网 一 一 智能 决策 解决 之 道 


只 有 包含 两 级 (分 类 ) 的 有 关 变 量 才能 进行 了 检验 ， 但 此 用 例 中 有 三 级 (高 /中 / 低 ) 
分 类 。 那 么 该 如 何 处 理 ? 

一 个 简单 的 技巧 就 是 创建 3 个 不 同 的 虚拟 变量 ， 即 一 个 用 于 High (高 ) ， 另 一 个 用 
于 Medium (中 ) 等 。 然 后 对 每 个 变量 进行 3 个 单独 的 检验 ， 并 努力 对 原 假 设 是 否 可 以 被 
拒绝 取得 结论 。 但 是 ， 这 种 方法 在 处 理 第 一 类 错误 的 问题 时 ， 存 在 一 个 巨大 的 缺陷 。 

1. 什么 是 第 一 类 错误 

在 假设 检验 的 过 程 中 ， 由 于 数据 问题 ， 即 使 原 假设 是 正确 的 ， 也 有 可 能 最 终 拒 绝 原 
假设 , 或 者 即使 原 假设 不 正确 , 也 可 能 会 接受 它 。 这 两 种 情况 被 分 别称 为 第 一 类 错误 (Type 
1 error) 和 第 二 类 错误 (Type 2 error) ， 如 表 3.5 Biz. 


表 3.5 两 类 错误 
| O w | — mü — | 


基于 一 个 随机 样本 的 决策 
| mb | ura |O wo 
决策 时 的 两 类 错误 
T 检验 更 容易 实施 ， 但 是 由 于 第 一 类 错误 ， 需 要 转 而 采取 更 好 的 技术 ， 因 为 使 用 的 
假设 检验 越 多 ， 发 生 第 一 类 错误 的 风险 越 高 ， 检 验 的 效用 越 低 。 毫 无 疑问 ，T 检验 改变 
了 统计 ， 它 具有 利用 样本 找 出 显著 性 的 能 力 ， 然 而 如 果 变 量 有 两 个 以 上 的 均值 时 ， 就 会 
用 方差 分 析 。 
2. 什么 是 方差 分 析 


方差 分 析 (Analysis of Variance，ANOVA) 是 一 种 统计 方法 ， 用 于 检验 两 个 或 两 个 
以 上 的 均值 之 间 的 差异 。 事 实 上 ， 当 有 关 的 变量 只 有 两 级 〈 分 类 ) W (RERE), w 
可 不 用 工 检验 而 是 采用 方差 分 析 。 

下 面 选 取 及 语言 stars 包 提供 的 aov0 函 数 进行 方差 分 析 检 验 

> #Output Quality Parameter 1 


(成 品质 量 参数 1) 


> anova model<- 


Fa 


aov(data$Output QualityParameterl~data$Quantity Deviation new) 


> summary (anova model) 


”在 统计 学 上 ， 第 一 类 错误 亦 称 为 I 型 错误 ， 第 二 类 错误 也 称 为 ERR. — Wink 


SH 
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Df Sum Sq Mean Sq F value Pr(>F) 
data$Quantity Deviation new 2 2007 1003.5 1.591 0.204 
Residuals 997 628944 630.8 


在 检验 数量 偏差 和 成 品质 量 参数 1 的 方差 分 析 时 ， 可 以 看 到 p 值 高 于 验收 范围 。 
可 推断 两 个 维度 即 数量 偏差 和 成 品质 量 参数 1 之 间 没有 关系 : 


> #0utput Quality Parameter 2 
(成 品质 量 参数 2) 
> anova model<- 
aov(data$Output QualityParameter2~data$Quantity Deviation new) 
> summary (anova model) 
Df Sum Sq Mean Sq F value Pr(>F) 
data$Quantity Deviation new 2  1.061e*07 5306477 3.367 0.0349 * 


Residuals 997 1.571e*09 1575814 
signite codes Onna R00 OO MOULE (S DS De TONO SS T 
> 


> #Output Quality Parameter 3 
(成 品质 量 参数 3) 
> anova model<- 
aov(data$Output QualityParameter3-data$Quantity Deviation new) 
> summary (anova model) 
Df Sum Sq Mean Sq F value Pr(>F) 
data$Quantity Deviation new 2 £6.913e*07 34563909 3.702 0.025 * 


Residuals 997 9.309e*09 9337352 
Signi t COs O TSAR O0 EE OO S (TRE MNT: 
2 


> #0utput Quality Parameter 4 
(成 品质 量 参数 4) 


> anova model«- 
aov(data$Output QualityParameter4-data$Quantity Deviation new) 


> summary (anova model) 


*96* 当 大 数据 遇见 物 联网 一 一 智能 决策 解决 之 道 


Df Sum Sq Mean Sq F value  Pr(»F) 
data$Quantity Deviation new 2 4815985 2407992 5.873 0.00291 ** 
Residuals 997 408807280 410037 


Sigalf. godag: 0 VEKU Q OOL TEET OOL TAr 00S ME OT TuT 


上 述 代码 对 有 关 的 变量 实施 方差 分 析 检 验 : 即 具有 三 级 (分 类 ) 的 数量 偏差 和 其 余 3 
个 成 品质 量 参数 。 从 方差 分 析 的 结果 中 观察 p 值 ， 可 以 拒绝 原 假设 ， 并 断定 数量 偏差 对 
所 生产 的 洗涤 剂 的 成 品质 量 参数 2、3 和 4 产生 影响 。 


类 别 3 


这 里 的 假设 指 的 是 “阶段 1 原料 质量 参数 对 洗涤 剂 的 最 终 质 量 产生 影响 ”。 

迄今 为 止 ， 完 成 了 4 个 类 别 中 的 其 中 两 类 的 统计 检验 。 在 每 个 类 别 中 ， 因 为 有 不 同 
种 类 的 自 变量 和 因 变 量 ， 采 用 了 不 同类 型 的 检验 。 在 当前 的 类 别 中 ， 既 有 连续 型 的 自 变 
量 也 有 连续 型 的 因 变 量 。 因 此 ， 不 能 使 用 迄今 探索 过 的 检验 来 验证 目前 的 假设 。 如 果 回 
顾 前 面 的 备 忘 表 ， 就 会 发 现 必须 应 用 回归 分 析 来 解决 这 些 问 题 。 

什么 是 回归 分 析 ? 
回归 分 析 是 估计 变量 之 间 关 系 的 一 个 统计 过 程 。 具 体 而 言 ， 当 任何 一 个 自 变量 发 生 
变化 而 其 他 自 变 量 固定 不 变 时 ， 因 变量 的 典型 值 会 如 何 变化 ， 回 归 分 析 正 有 助 于 理解 这 
一 点 


3.4.6 验证 假设 


因此 ， 如 果 将 范围 限制 在 当前 用 例 情景 中 ， 则 可 理解 为 回归 分 析 能 够 帮助 确定 多 个 
自 变量 和 一 个 因 变 量 之 间 是 否 存在 任何 关系 。 接 着 会 更 深入 地 探索 回归 分 析 ， 但 是 对 于 
当前 的 情况 ， 先 将 回归 分 析 的 范围 限制 为 研究 有 关 变 量 之 间 的 关系 。 

在 我 们 的 假设 中 ， 阶 段 1 有 两 种 原料 ， 每 种 原料 都 有 两 个 单独 的 质量 参数 ， 即 4 个 原 
料 质量 参数 。 类 似 地 ， 第 二 个 假设 在 阶段 3 的 原料 参数 上 体现 出 来 了 。 与 阶段 1 不 同 ， 阶 
段 3 有 4 种 原料 ， 但 质量 参数 仅 可 用 于 其 中 的 3 种 。 现 在 共有 (2+1+2) = 5 的 原料 质量 
参数 。 

那么 ， 把 所 有 这 些 维度 组 合成 一 个 单一 的 方程 ， 然 后 探究 因 变量 和 自 变 量 之 问 是 否 
存在 关系 。 另 外 ， 由 于 有 4 个 不 同 的 成 品质 量 参数 作为 因 变 量 ， 因 此 进行 4 次 检验 来 收 
集结 果 : 


> #Performing a regression model with 


(用 以 下 参数 执行 一 个 回归 模型 ) 
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> #4 quality parameters from Stage 1 and 
(阶段 1 的 4 个 质量 参数 以 及 ) 

> #5 quality parameters from Stage 3 
(阶段 3 的 5 个 质量 参数 ) 


> 


> anova (regression model) 


Residuals 


Signif. codes: 


- 


SH 


因 


o9 (Uasb WU 


> regression model«-1m(Output QualityParameterl- 
data$Stagel RM2 QParameterl + 
data$Stagel RM2 QParameter2 + 
data$S tagel RM1 QParameterl + 
data$Stagel RM1 QParameter2 + 
data$Stage3 RM1 QParameterl + 
data$Stage3 RM1 QParameter2 + 
data$Stage3 RM2 QParameterl + 
data$Stage3 RM3 QParameterl + 
data$Stage3 RM3 QParameter2 , 
data-data) 
Analysis of Variance Table 
Response: Output QualityParameterl 
Df Sum Sq Mean Sq F value 
data$Stagel RM2 QParameterl 1 489966 489966 6551.5908 
data$Stagel RM2 QParameter2 T 696 696 9.3112 
data$Stagel RM1 QParameterl 1 1671 1671 22.3399 
data$Stagel RM1 QParameter2 1 1307 1307 17.4746 
data$Stage3 RM1 QParameterl 1 38932 38932 520.5839 
data$Stage3 RM1 QParameter2 T 471 471 6.2975 
data$Stage3 RM2 QParameter1 1 6253 6253 83.6113 
data$Stage3 RM3 QParameteri 1 10512 10512 
data$Stage3 RM3 QParameter2 1 7105 7105 
990 74038 TS 
O rekker O OOL TEST OVOL TtEr 0705 
O rskr OL 00L 0 *x/ OON 6x1220705 


Signif. codes: 


人 


97。 


Pr (>F) 
< 2.206-16 *** 
0.002338 ** 
2.615e-06 *** 
3.169e-05 *** 
< 2.2e-16 *** 
0.012250 * 
< 2.2e-16 *** 


140.5668 « 2.2e-16 *** 
95.0078 < 2.2e-16 *** 


1 


1 
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从 回归 模型 的 结果 发 现 ， 所 有 9 个 维度 , 即 阶段 3 的 5 个 原料 质量 参数 和 阶段 1 的 4 
量 参数 的 p 值 都 小 于 5%， 这 意味 着 可 以 拒绝 原 假设 ,而 且 确 定 原料 性 质 确实 对 洗涤 
剂 的 成 品质 量 参数 1 产生 影响 。 
下 面 采用 同样 的 方式 来 研究 其 余 3 个 成 品质 量 参数 的 关系 。 
将 上 述 代码 中 的 因 变 量 蔡 换 为 不 同 的 因 变量 〈 即 成 品质 量 参数 2、3 和 4) ， 即 可 得 
出 以 下 结果 。 
#For Output QualityParameter2 
(HF Output QualityParameter2 ) 
> anova (regression model) 
Analysis of Variance Table 
Response: Output QualityParameter2 
Df Sum Sq Mean Sq F value Pr(>F) 
data$Stagel RM2 QParameterl 1 679471149 679471149 807.4247 < 2.2e-16 *** 
data$Stagel RM2 QParameter2 1 220054 220054 0.2615 0.609210 
data$Stagel RM1 QParameterl 1 7626898 7626898 9. 0631 0.002674 ** 
data$Stagel RM1 QParameter2 1 1865 1865 0.0022 0.962466 
data$Stage3 RM1 QParameterl 1 28665642 28665642 34.0638 7.222e-09 ** 
data$Stage3 RM1 QParameter2 1 16686 16686 0.0198 0.888048 
data$Stage3 RM2 QParameterl 1 7902621 7902621 9.3908 0.002240 ** 
data$Stage3 RM3 QParameterl 1 21963781 21963781 26.0999 3.889e-07 ** 
data$Stage3 RM3 QParameter2 1 2717698 2717698 3.2295 0.072628 . 
Residuals 990 833113480 841529 
Signif. codes: 0 "ss! 0.001 "'**' 0.01 Kk" 0.05: To 50:1 ^1 


# Performing a regression model for Output QualityParameter3 
CAN Output QualityParameter3 执行 一 个 回归 模型 ) 


> anova(regression model) 


Analysis of Variance Table 


Response: Output QualityParameter3 

Df Sum Sq 
data$Stagel RM2 QParameterl 1 4040239678 
data$Stagel RM2 QParameter2 1 928873 


Mean Sq F value Pr(>F) 
4040239678 802.2017 < 2.2e-16 * 
928873 0.1844 0.66769 
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data$Stagel RM1 QParameterl 1806552 1806552 0.3587 .54937 
data$Stagel RM1 QParameter2 154571 154571 0.0307 0.86097 


data$Stage3 RM1 QParameterl 
data$Stage3 RM1 QParameter2 


223809743 223809743 44.4381 4.354e-11 

14285485 14285485 2.8364 0.09246 . 
data$Stage3 RM2 QParameterl 83651956 83651956 16.6093 4.960e-05 * 
data$Stage3 RM3 QParameterl 23903953 23903953 4.7462 0.02960 
data$Stage3 RM3 QParameter2 1 3612936 3612936 0.7174 0.39722 
Residuals 990 4986074467 5036439 


1 
1 
1 
1 
al 
1 


Signi: cades: OT TESE O 00L 00 E005 0 


# Performing a regression model for Output QualityParameter4 
CA Output QualityParameter4 执行 一 个 回归 模型 ) 

> anova (regression model) 

Analysis of Variance Table 


Response: Output QualityParameter4 
DE Sum Sq Mean Sq F value Pr (>F) 


data$Stagel RM2 QParameterl 1 188207474 188207474 883.5117 < 2.2e-16 
data$Stagel RM2 QParameter2 1 187981 187981 0.8824 0.347761 
data$Stagel RM1 QParameterl 1 1472674 1472674 | 6.9132 0.008689 
data$Stagel RM1 QParameter2 1 50382 50382 0.2365 0.626845 
data$Stage3 RM1 QParameterl 1 8718238 8718238 40.9265 2.434e-10 
data$Stage3 RM1 QParameter2 1 4720 4720 0.0222 0.881697 
data$Stage3 RM2 QParameterl 1 2559058 2559058 12.0131 0.000551 
data$Stage3 RM3 QParameterl 1 789099 789099 3.7043 0.054558 . 


data$Stage3 RM3 QParameter2 1 741804 741804 3.4823 0.062324 . 
Residuals 990 210891835 213022 


Signif. codes: 0 "***' 0.001 '**' 0.01 '*'" 0:05 *-' 0:1 " "1 


与 成 品质 量 参数 1 不 同 的 是 ， 其 余 的 成 品质 量 参数 和 原料 质量 参数 之 间 只 存在 少许 


简 而 言 之 ， 在 所 有 原料 性 质 中 ， 成 品质 量 参数 2 受到 其 中 5 个 原料 性 质 的 影响 ， 成 
oem 参数 4 只 受到 其 中 3 个 的 影响 

， 奔 清楚 了 原料 质量 参数 如 何 影响 洗涤 剂 的 整体 质量 ， 以 及 它们 如 何 影响 单个 
ee a er dtd 
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3.4.7 假设 


类 别 4 


口 在 阶段 3 生产 期 间 使 用 的 资源 对 洗涤 剂 的 最 终 质 量 产生 影响 。 
Q 在 阶段 3 中 生产 的 延迟 会 影响 洗涤 剂 的 最 终 质 量 。 

验证 这 些 假设 现在 十 分 简单 。 我 们 对 这 些 情况 的 每 一 种 情况 都 遇 到 过 了 。 这 两 个 假 
设 可 用 卡 方 检验 进行 验证 。 下 面 快速 浏览 这 些 检验 的 结果 。 

假设 1: 阶段 3 生产 过 程 中 使 用 的 资源 对 洗涤 剂 的 最 终 质量 产生 影响 。 


> #Creating a table of the frequency count for the two variables 
(为 两 个 变量 创建 一 个 频率 计数 表 ) 
> #that is, Outcome v/s Variable of Interest 
( 即 结果 v/s 有 关 变 量 ) 
> sample«-table(data$Stage3 ResourceName,data$Detergent Quality) 
> sample # View the actual table (查看 实际 的 表 ) 
Bad Good 
Resource 105 8 68 
Resource 106 15 55 
Resource 107 9 65 
Resource 108 88 298 
Resource 109 105 289 


> #Perform the Chi Squared Test of Independence 
(进行 卡 方 独立 性 检验 》 


> chisq.test (sample) 
Pearson's Chi-squared test 


data: sample 

X-squared = 14.741, df = 4, p-value = 0.005271 

从 这 看 到 了 和 之 前 遇 到 的 问题 类 似 的 情况 ， 即 结果 略 高 于 5%。 为 了 让 检验 结果 更 易 
于 理解 ， 尝 试 减少 组 数 ， 并 再 次 检验 。 由 于 资源 105、106 和 107 中 的 记录 数量 相对 较 低 ， 
将 它们 组 合 一 起 再 次 进行 检验 : 

> #Transforming the variable 


(转换 变量 ) 


> datas$ Stage3 ResourceName new«- 
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PH 


as.factor(ifelse(data$Stage3 ResourceName 
$in$ c("Resource 105","Resource 106", 
"Resource 107"), 

"Others", 

as.character (data$Stage3 ResourceName ))) 

> sample«-table(data$Stage3 ResourceName new, 


data$Detergent Quality) 


> sample # View the actual table (查看 实际 的 表 ) 
Bad Good 
Others 32 188 


Resource 108 88 298 

Resource 109 105 289 
> #Perform the Chi Squared Test of Independence 
(进行 卡 方 独立 性 检验 ) 
> chisq.test (sample) 

Pearson's Chi-squared test 

data: sample 
X-squared - 11.894, df - 2, p-value - 0.002614 


从 上 述 结果 观察 到 ， 现 在 的 p 值 低 于 临界 值 ， 因 而 可 拒绝 原 假设 。 因 此 ， 阶 段 3 中 
使 用 的 资源 会 影响 洗涤 剂 的 最 终 质 量 。 
假设 2: 在 阶段 3 中 生产 的 延迟 会 影响 洗涤 剂 的 最 终 质 量 。 


> #Creating a table of the frequency count for the two variables 
(为 两 个 变量 创建 一 个 频率 计数 表 ) 
> #that is, Outcome v/s Variable of Interest 
( 即 结果 v/s 有 关 变 量 ) 
> sample«-table(data$Stage3 DelayFlag,data$Detergent Quality) 
> sample 4 View the actual table (查看 实际 的 表 ) 
Bad Good 
No 1151437 
Yes 110 338 


> #Perform the Chi Squared Test of Independence 
(进行 卡 方 独立 性 检验 ) 


> chisq.test (sample) 
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Pearson's Chi-squared test with Yates' continuity correction 
data: sample 
X-squared - 1.7552, df = 1, p-value = 0.1852 


Pp 值 非常 高 ， 因 此 接受 原 假设 ， 即 阶段 3 中 的 生产 延迟 不 会 影响 洗涤 剂 的 最 终 质 量 。 
3.4.8 ”探索 性 数据 分 析 阶 段 小 结 


目前 已 完成 了 探索 性 数据 分 析 阶 段 ， 即 通过 对 在 初始 练习 中 触及 的 各 种 假设 或 洞 见 ， 
进行 各 种 统计 检验 来 验证 结果 。 在 整个 过 程 中 ， 发 现 了 很 多 截然 不 同 的 结果 。 有 些 是 用 
启发 法 草拟 的 ， 有 些 则 是 根据 从 数据 的 观察 中 得 来 的 。 所 有 这 些 洞 见 或 观察 都 可 能 是 问 
题 发 出 的 信息 信号 。 接 着 ， 又 往 前 迈 了 一 步 ， 用 统计 验证 了 所 看 到 的 信息 是 真实 的 ， 而 
不 仅仅 是 随机 数据 点 。 得 出 了 一 个 维度 列表 之 后 ， 团 队 对 一 些 因素 是 否 会 影响 最 终结 
〈 即 洗涤 剂 质量 ) 充满 信心 ， 但 是 仍然 遗漏 了 一 个 重要 的 事情 。 需 要 研究 这 些 不 同 的 维 
度 是 如 何 影响 问题 〈 也 就 是 洗涤 剂 质量 ) 的 。 为 了 理解 这 一 点 ， 需 要 复查 本 章 练习 中 的 
前 4 个 里 程 碑 式 的 练习 (参考 “3.4 ”探索 性 数据 分 析 ” 一 节 中 的 图 表 ) ， 秉 着 研究 取证 
的 严谨 态度 对 结果 一 探究 竟 ， 以 理解 这 幅 解 决 方案 蓝图 中 的 “为 什么 ”这 个 问题 。 在 下 
一 节 中 ， 将 会 消化 练习 中 所 学 到 知识 并 将 这 些 知 识 点 串联 起 来 ， 融 会 贯通 于 结果 中 ， 回 
答 “ 为 什么 ”这 个 问题 。 


3.5 根本 原因 分 析 


继续 学 习 之 旅 ， 要 从 迄今 为 止 收 集 到 的 所 有 洞 见 中 ， 回 答 出 “为 什么 ”的 问题 。 接 
下 来 先 消化 在 探索 性 数据 分 析 练习 中 验证 的 所 有 结果 。 在 掌握 了 所 有 结果 之 后 ， 试 着 将 
结果 简化 ， 创 建 一 个 简单 的 分 析 ， 帮 助 清晰 明确 地 回答 问题 。 

表 3.6 是 在 “3.4.2 假设 检验 是 如 何 起 作用 的 ”中 设计 的 DDH 矩阵 的 扩展 版 本 ， 以 
及 在 练习 中 发 现 的 结果 。 


3k 3.0 DDH 矩阵 扩展 版 本 
洞 w 


Line 1 生产 出 更 多 劣质 洗涤 剂 的 可 能 性 总 
体 较 高 

Line 1 造成 洗涤 剂 成 品质 量 参数 恶化 的 可 
能 性 总 体 较 高 


流水 线 对 洗涤 剂 的 最 终 质量 没有 影响 


流水 线 对 成 品质 量 参数 2 3 和 4 产生 影响 
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假 ” 设 
由 于 订单 量 与 实际 生产 量 之 间 的 偏差 增 
加 ， 生 产 出 劣质 洗涤 剂 的 可 能 性 也 增加 
由 于 订单 量 与 实际 生产 量 之 间 的 偏差 增 
加 ， 成 品质 量 参数 恶化 


H A 
EPEMA W” BOIS HAERE 
的 可 能 性 较 大 
生产 量 偏差 为 “高 ”的 订单 ， 对 成 品质 量 
参数 2、3 和 4 产生 影响 


阶段 1 原料 质量 参数 对 洗涤 剂 的 最 终 质 量 同上 
产生 影响 
阶段 3 原料 质量 参数 对 洗涤 剂 的 最 终 质量 同上 


产生 影响 
在 阶段 3 生产 期 间 使 用 的 资源 对 洗涤 剂 的 
最 终 质量 产生 影响 
在 阶段 3 中 生产 延迟 会 影响 洗涤 剂 的 最 终 
对 于 原料 质量 参数 ， 结 果 总 结 如 下 。 
口 ” 对 于 成 品质 量 参数 1: 所 有 9 个 原料 质量 参数 都 对 质量 有 影响 。 
Q ”对 于 成 品质 量 参数 2: 阶段 1 RM1 QParameterl 和 RM2 QParameterl 有 影响 
阶段 3RMI1 QParameterl, RM2 QParameterl 和 RM3 QParameterl 会 产生 影响 
Q 对 于 成 品质 量 参数 3: 阶段 1 RM2 QParameter 有 影响 。 阶 段 3 RM1 
OParameterl, RM2 QParameterl fl RM3 QParameterl 会 产生 影响 。 
OQ ”对 于 成 品质 量 参数 4: 阶段 1 RMI QParameter] 和 RM2 QParameterl 有 影响 
阶段 3 RM1_QParameterl 和 RM2 QParameterl 会 产生 影响 。 
结果 总 体 看 起 来 十 分 有 趣 。 除 了 两 个 结果 以 外 ， 前 面 构建 的 所 有 其 他 假设 已 被 统计 
验证 并 且 结 果 都 是 正确 的 。 


阶段 3 生产 期 间 使 用 的 资源 对 洗涤 剂 的 最 
终 质量 产生 影响 

阶段 3 中 生产 的 延迟 对 洗涤 剂 的 最 终 质量 
不 产生 影响 


3.5.1 综合 结果 


下 面 从 简单 开始 ， 首 先 把 获得 的 结果 综合 起 来 。 

问题 陈述 一 直 围绕 着 工厂 生产 的 洗涤 剂 质量 进行 。 将 从 生产 单位 中 抽 离 的 4 个 成 品 
输出 质量 参数 结合 起 来 分 析 ， 给 产品 质量 标记 为 “良品 ”或 “不 良品 ”。 用 于 生产 的 流 
水 线 会 影响 4 个 最 终 成 品质 量 参数 中 的 3 个 ， 但 仍然 不 会 对 洗涤 剂 的 最 终 成 品质 量 产生 
影响 。 需 要 注意 的 至 关 重 要 的 一 点 是 ， 将 4 个 成 品质 量 参 数组 合 起 来 ， 求 出 “良品 ”或 
“不 良品 ”的 最 终结 果 ， 这 个 算法 就 是 加 权 算法 〈 如 前 所 述 ) 。 虽 然 流水 线 对 3 个 成 品 
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参数 造成 影响 ， 可 是 依旧 不 影响 最 终 质 量 ， 这 个 事实 可 能 提示 我 们 ， 成 品质 量 参数 1 具 
有 比 所 有 其 他 参数 更 高 的 权重 。“ 流 水 线 ” 维 度 对 3 个 成 品质 量 参数 的 影响 ， 可 能 还 不 
足以 对 质量 产生 最 终 影响 。 铭 记 这 一 点 ， 继 续 往 下 分 析 。 

订单 的 计划 生产 量 与 实际 生产 量 通常 存在 偏差 。 一 个 特定 生产 订单 的 数量 偏差 具有 
高 、 中 或 低 的 特征 。 数 量 偏差 对 洗涤 剂 的 最 终 质量 有 很 大 的 影响 。 有 具有 高 偏差 的 订单 生 
产 出 劣质 洗涤 剂 的 可 能 性 非常 高 。 同 样 ， 与 流水 线 维度 相似 的 4 个 质量 参数 中 ， 数 量 偏 
差 会 对 其 中 的 3 个 产生 影响 。 

阶段 1 和 阶段 3 采用 的 原料 质量 对 最 终 质量 有 很 大 的 影响 。 所 有 9 个 原料 质量 参数 
对 成 品质 量 参数 1 都 会 造成 影响 。 在 9 个 原料 质量 参数 中 ， 最 重要 的 参数 有 
Stagel RMI QParameterl (阶段 1 原料 1 质量 参数 1) 、Stagel RM2_QParameterl (ffr 
段 1 原料 2 质量 参数 1) 、Stage3 RMI QParameterl (阶段 3 原料 1 质量 参数 1) 和 
Stage3_RM2_QParameter1 (阶段 3 原料 2 质量 参数 1) 。 在 整个 假设 列表 里 ， 这 4 个 原料 
质量 参数 对 质量 有 重大 影响 。 回 溯 至 前 面 “3.3 ”研究 数据 关系 ”的 章节 ， 并 参考 其 中 的 
原料 质量 参数 和 成 品质 量 参数 的 可 视 化 相关 图 ， 很 容易 就 注意 到 ， 当 原料 质量 参数 的 值 
超过 一 定 的 阔 值 时 ， 则 所 有 错误 〈 即 劣质 洗涤 剂 ) 就 会 产生 。 例 如 ， 请 参阅 “研究 数据 
关系 ”章节 中 的 “3.3.2 ”探索 阶段 1 的 数据 维度 ”小 节 内 容 。 如 果 观 察 所 有 4 个 成 品质 
量 参数 和 Stagel RM1_QParameterl 的 相关 图 ， 可 以 清楚 地 看 到 最 大 数据 点 数 约 为 4275, 
大 部 分 质量 欠 佳 的 情况 在 参数 上 都 超出 了 4275 这 个 值 .这 时 可 采取 一 个 简单 易 行 的 方法 ， 
即 对 阶段 1 中 原料 1 的 质量 参数 1 的 值 进行 管控 ， 才 会 比较 容易 地 提高 所 生产 的 洗涤 剂 
质量 。 对 于 其 他 8 个 原料 参数 也 可 以 进行 同样 的 研究 。 

以 下 法 则 可 作为 原料 质量 参数 的 经 验 法 则 。 此 处 增加 了 一 些 重要 特征 。 


0 ss. 


仅仅 通过 观察 之 前 研究 的 可 视 化 相关 图 ， 记 录 以 下 的 值 如 表 3.7 所 示 。 


表 3.7 原料 质量 参数 和 最 大 阅 值 


原料 质量 参数 EXER BH 
Stage 1- Raw Material 1 — Quality Parameter 1 4275 
Stage 1- Raw Material 2 — Quality Parameter 1 145 
Stage 3-Raw Material 1 — Quality Parameter 1 210 
Stage 3-Raw Material 2 — Quality Parameter 1 540 


最 后 ，“ 阶 段 3 使 用 的 资源 ”维度 也 会 影响 洗涤 剂 的 最 终 质量 。 如 果 回 顾 “3.4 R 
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索性 数据 分 析 ” 章 节 中 获得 的 结果 ， 就 能 理解 Resource 109 产 出 的 劣质 产品 占 多 数 。 有 
一 个 经 验 法 则 是 ， 提 高 Resource 109 的 清洁 度 ， 或 改变 我 们 没有 意识 到 的 其 他 与 领域 相 
关 的 属性 ， 或 最 坏 的 情况 是 避免 将 Resource 109 用 于 生产 过 程 ， 这 些 措施 都 有 助 于 减少 
劣质 产品 的 产生 。 


3.5.2 可视化 洞 见 


为 了 有 助 于 更 快 地 进行 根本 原因 分 析 ， 现 在 来 创建 一 个 简单 的 树 形 图 ， 将 所 有 可 视 
化 洞 见 简化 呈现 在 一 个 视图 中 进行 可 视 化 。 在 一 个 地 方 浓缩 改进 所 有 的 洞 见 和 建议 ， 这 
样 把 整个 分 析 连 接 起 来 无 疑 易如反掌 。 

图 3.12 列 出 了 导致 生产 劣质 产品 的 因素 。 这 些 因 素 下 面 的 文字 阅 明 了 该 因素 是 如 何 
影响 产品 的 ， 以 及 应 该 如 何 减少 劣质 产品 的 危害 。 


生产 量 偏差 ~ x 流水 线 


随 着 偏差 的 增加 ， 产 品 最 DM 流水 线 对 4 个 成 品质 量 参 

终 质量 欠 佳 的 可 能 性 也 高 数 中 的 3 个 产生 影响 ， 但 

因此 ， 控 制 数量 偏差 对 减 N -a 仍然 对 最 终 质量 没有 产生 
少 不 良 品 会 有 作用 ai 直接 影响 

日 ”改进 与 流水 线 相关 的 问 

有 哪些 因素 对 洗涤 剂 质量 产生 影响 ? 一 题 ， 让 3 个 成 品质 量 参数 

, 的 值 落 在 期 望 范围 内 ， 会 

直接 改善 产品 质量 


阶段 和 阶段 3 原料 “一 ss 阶段 了 
质量 参数 机 器 资源 

所 有 原料 质量 参数 都 对 成 使 用 的 机 器 资源 对 最 终 质 
品质 量 产生 直接 影响 量 产 生 直 接 影响 

因此 ， 采 用 合适 质量 参数 确定 哪些 资源 是 造成 影响 

控制 原料 投入 ， 对 生产 出 的 资源 ， 需 要 对 它们 进行 

质量 较 佳 的 产品 会 起 促进 彻底 地 检查 ， 以 减少 不 良 

品 的 产生 


图 3.12 
通过 研究 可 视 化 的 图 ， 可 以 快速 地 将 问题 解决 框架 的 初始 步骤 一 一 连接 起 来 。 如 果 
读者 忘 了 前 面 所 学 的 问题 解决 框架 ， 这 里 再 重 提 一 次 ， 这 种 框架 即 是 “情景 、 冲突 和 疑 
问 (Situation Complication and Question， 简 称 SCQ) ”。 请 参考 第 2 章 “2.2.1 解析 问 
题 ” 一 节 同 样 的 “SCQ” 图 表 ， 接 着 将 发 现 和 结果 列 出 来 ， 看 看 研究 进展 到 何 处 了 。 
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图 3.13 涵盖 了 前 面 对 初 始 框架 设计 的 结果 和 洞 见 。 此 处 看 似 拥有 了 解决 问题 所 需 的 
一 切 信息 。 


su 
现在 们 知道 了 这 些 
ELLA 


gu 造成 不 良品 的 原因 不 明 
GU ATPAREN 7 


一 家 大 型 消费 品 生产 公司 的 洗 
涤 剂 生产 工厂 由 于 产 出 不 良品 EI | 下 

设计 纠正 措施 提高 产 
而 蒙受 了 巨大 损失 a 设计 了 


影响 产品 质量 的 


导致 不 良品 产生 的 不 同 因素 有 哪些 ? 品质 量 并 减少 损失 

C -这 些 因素 是 如 何 影响 产品 的 ? 
数量 偏差 -采取 什么 措施 才能 减少 错误 了 
阶段 1 原料 质量 参数 2 数量 偏差 越 高 质量 越 低 
阶段 3 原料 质量 参数 [ 原料 质量 参数 超出 最 高 闵 值 造 
阶段 3 机 器 资源 成 产品 质量 低下 
流水 线 (间接 ) i H (Medium)" 机 器 故障 造成 产品 质量 低下 

流水 线 故障 间接 地 造成 产品 质 
RN 其 质量 参数 需 维持 在 设 定 的 最 大 量 低下 
围 内 


BXSWEIEN EATEERBAR 
与 流水 线 相关 的 问题 ， 确 保 其 修复 以 提高 质量 


图 3.13 
3.5.8 将 故事 拼接 形成 完整 的 解决 方案 


截至 目前 完成 了 最 初 计 划 的 所 有 分 析 。 还 有 最 后 一 件 事 就 是 要 把 最 终 的 分 析 都 串联 
起 来 〈 形 成 一 个 完整 的 故事 ， 即 解决 方案 ) 。 起 初 ， 约 翰 〈 运 营 负责 人 ) 所 负责 的 生产 
部 门 由 于 生产 出 劣质 洗涤 剂 而 蒙受 了 巨大 损失 。 

Spin d OU ee ed 最 终 设计 了 一 个 SCQ 框架 来 确定 问题 的 背 
景 和 目标 。 然 后 ， 以 结构 化 的 方式 进行 探索 、 研 究 、 实 验 和 可 视 化 数据 ， 以 找 出 问题 发 
生 的 原因 。 

在 分 析 过 程 中 ， 发 现 劣质 洗涤 剂 的 罪魁 祸首 是 由 4 个 简单 的 维度 决定 的 ， 即 生产 数 
量 偏差 、 所 用 原料 的 质量 、 用 于 生产 的 流水 线 以 及 生产 过 程 阶段 3 中 用 于 生产 的 机 器 。 
为 了 探究 这 些 因素 如 何 影响 产品 质量 ， 又 观察 到 生产 偏差 与 不 良品 产生 的 可 能 性 之 间 存 
在 正 相关 关系 。 简 而 言 之 ， 如 果 生 产量 和 订单 量 之 间 的 偏差 也 很 高 ， 那 么 生产 出 劣质 洗 
涤 剂 的 可 能 性 就 非常 高 。 另 外 ， 阶 段 1 和 阶段 3 中 采用 的 原料 的 质量 ， 直 接 影响 了 洗涤 
剂 的 最 终 质 量 。 所 检测 的 9 个 质量 参数 中 的 4 个 与 最 终 质量 关系 重大 。 但 原料 质量 超过 
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了 闵 值 ， 就 会 明显 产生 不 良品 。 

在 生产 过 程 阶段 3 中 使 用 的 机 器 似乎 也 不 省 事 。 机 器 中 有 一 些 错误 的 操作 需要 快速 
修复 ， 以 减少 不 良品 。 要 找 出 与 整个 机 器 相关 的 问题 ， 无 疑 是 一 项 艰巨 的 任务 ， 但 是 由 
于 知道 其 中 一 台 机 器 生产 不 良品 的 可 能 性 较 高 ， 那 么 可 以 修复 所 使 用 的 这 台 机 器 ， 缩 小 
它 与 其 他 相关 机 器 的 差异 。 最 后 ， 用 于 生产 的 流水 线 也 对 质量 有 间接 的 影响 。 可 能 会 出 
现 这 样 的 情况 ， 流水线 会 影响 加 工时 间 ， 或 者 上 述 任何 因素 最 终 影响 了 产品 质量 。 确 定 
这 些 错综复杂 的 问题 并 进行 修复 ， 可 进一步 提高 洗涤 剂 质量 。 


3.5.4 结论 


现在 得 出 了 一 个 简化 的 问题 解决 方案 。 我 方 团队 在 最 初 的 问题 解析 阶段 所 提出 的 那 
些 疑 问 的 答案 ， 帮 助 研究 了 问题 的 各 种 原因 。 下 面 快 速 地 总 结 需要 向 约翰 提出 的 各 种 行 
动 方案 ， 以 使 他 能 够 减轻 生产 劣质 洗涤 剂 的 风险 ， 解 决 问题 并 减少 损失 。 

1. 生产 数量 

洗涤 剂 的 计划 生产 量 与 实际 生产 量 之 间 往 往 存 在 巨大 的 差距 。 这 种 偏差 对 洗涤 剂 的 
最 终 质 量 产生 很 大 的 影响 。 偏 差 的 增加 显著 增加 了 生产 劣质 洗涤 剂 的 可 能 性 。 因 此 ， 强 
烈 建议 采取 适当 的 措施 ， 按 照 需求 量 来 规划 生产 洗涤 剂 ， 而 不 是 偏离 计划 生产 量 ， 到 了 
最 后 时 刻 才 做 改变 。 

2. 原料 质量 参数 

用 于 生产 洗涤 剂 的 原料 质量 对 洗涤 剂 的 质量 造成 非常 大 的 影响 。 从 数据 中 清楚 地 看 
到 ， 超 出 确定 阔 值 的 原料 质量 ， 生 产 出 劣质 洗涤 剂 的 可 能 性 非常 高 。 因 此 建议 采用 质量 
范围 落 在 标准 /观察 阔 值 范围 内 的 原料 。 

3. 阶段 3 使 用 的 资源 /机 器 
生产 过 程 阶段 3 中 使 用 的 资源 对 生产 洗涤 剂 的 质量 会 产生 影响 。 确 定 与 机 器 相关 的 
全 部 问题 ， 列 出 一 个 详尽 清单 ， 这 并 不 是 一 个 可 行 的 解决 方案 。 但 是 ， 由 于 某 一 特定 资 
源 表现 出 具有 较 高 的 生产 不 良品 的 倾向 ， 因 此 将 这 些 机 器 与 其 他 生产 出 较 高 质量 洗涤 剂 
的 机 器 进行 比较 ， 研 究 并 修复 这 些 差 异 。 

4. 流水 线 

流水 线 没 有 直接 影响 洗涤 剂 的 最 终 质 量 ， 但 仍然 对 4 个 质量 参数 中 的 3 个 产生 较 强 
的 影响 。 因 此 ， 强 烈 建议 研究 流水 线 对 其 他 重要 因素 的 影响 ， 以 便 解 决 这 些 流水 线 问 题 
并 进一步 提高 洗涤 剂 质量 。 
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相信 这 些 建议 能 够 帮助 约翰 迅速 采取 行动 ， 改 进 洗涤 剂 质量 以 减少 损失 。 
3.6 小 结 


本 章 中 ， 在 解决 现实 生活 物 联网 商业 用 例 方面 迈 出 了 一 步 。 应 用 在 第 2 章 已 确定 好 
的 问题 蓝图 ， 并 在 问题 解决 框架 的 指导 下 ， 通 过 结构 化 的 方式 解决 问题 。 对 商业 问题 解 
析 好 之 后 ， 开 始 运用 R 语言 来 解决 。 与 此 同时 ， 学 习 从 数据 中 识别 出 有 用 的 数据 ， 为 以 
后 做 出 决策 打下 基础 。 在 此 阶段 ， 查 验 数据 源 ， 探 究 可 对 哪些 假设 进行 证 明 以 便 解 决 的 
问题 。 接 着 ， 验 证 了 一 个 事实 ， 即 拥有 海量 的 数据 可 用 来 解决 问题 ， 而 且 也 深入 细致 地 
对 这 些 数 据 进行 研究 ， 思 考 如 何 将 数据 应 用 到 解决 用 例 中 去 。 而 后 ， 收 集 了 大 量 的 数据 
和 领域 背景 信息 ， 探 索 了 物 联网 生态 系统 中 的 每 个 维度 ， 并 且 研 究 数据 具体 所 表达 的 内 
容 。 紧 接着 实施 单 变量 分 析 ， 对 各 种 维度 进行 转换 ， 创 建 更 强大 和 更 有 价值 的 维度 。 然 
后 ， 探 究 数据 中 存在 的 关系 ， 通 过 执行 双 变 量 分 析 来 把 握 不 同 维度 与 洗涤 剂 生产 质量 之 
间 的 关系 。 在 研究 数据 关系 并 收集 信息 / 洞 见 之 后 ， 借 助 统计 学 验证 观察 结果 ， 应 用 各 种 
统计 技术 来 巩固 洞 见 ， 例 如 采用 卡 方 检验 的 假设 检验 、T 检验、 回归 分 析 、 方 差分 析 等 。 
结果 经 过 了 验证 后 ， 将 这 些 结果 全 部 综合 起 来 形成 一 个 完整 的 故事 ( 即 解决 方案 ) ， 相 
应 地 拟 出 了 一 份 能 够 减少 损失 的 方案 建议 列表 ， 从 而 也 回答 了 在 解析 问题 时 起 草 的 全 部 
主要 业务 疑问 。 
因此 ， 运 用 结构 化 和 成 熟 的 方法 ， 结 合 数学 、 商 业 、 技 术 等 多 种 学 科 ， 本 章 终 于 解 
决 了 这 个 问题 。 但 是 ， 还 没有 完成 任务 。 正 如 前 面 所 讨论 的 ， 问 题 总 是 不 断 地 在 演变 。 
当前 的 问题 还 可 以 通过 询问 更 为 有 力 的 问题 (如 “ 何 时 ”) 来 进一步 探讨 。 这 就 是 即将 
探索 的 另 一 个 分 析 领 域 一 一 “预测 性 分 析 ”。 接 下 来 将 在 第 4 章 为 “ 何 时 ”这 个 问题 找 
寻 答案 ， 在 此 过 程 中 提高 解决 问题 的 能 力 ， 进 而 更 深入 地 探索 预测 性 分 析 。 
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人 们 在 解决 一 个 问题 时 ,往往 都 是 给 自己 提出 一 个 又 一 个 环 环 相 扣 的 问题 。 当 一 个 
问题 出 现时 ， 人 们 会 一 次 次 地 询问 “为 什么 ” “是 什么 ” “如 何 做 ”等 ， 直 到 所 有 问题 
得 到 了 解答 。 而 这 种 方法 对 解决 问题 也 大 有 神 益 。 决 策 科学 也 不 例外 。 这 一 整套 的 决策 
科学 〈 即 描述 性 分 析 + 探 查 性 分 析 + 预 测 性 分 析 + 规 范 性 分 析 ) ， 是 根据 提出 的 各 式 各 
样 的 问题 而 设计 的 。 随 着 不 断 深入 地 提出 问题 ， 开 发 的 解决 方案 也 变 得 越 来 越 强大 。 
起 初 ， 通 过 查 明 发 生 的 问题 “是 什么 ”来 探查 问题 体系 ， 接 着 再 仔细 探 清 问题 是 如 何 
发 生 的 。 在 对 问题 一 一 作答 时 ， 问 题 的 解决 方案 也 随 之 变 得 更 加 强大 ， 而 这 也 正 是 开始 
钻研 预测 性 分 析 的 时 候 。 具 备 预测 未 来 并 去 解决 问题 的 能 力 比 其 他 任何 方法 都 更 强大 也 
更 有 效 。 

本 章 将 采用 各 种 统计 技术 进行 预测 性 分 析 。 继 续 讨论 第 3 章 中 解决 的 相同 用 例 ， 深 
入 探讨 “ 何 时 ”这 个 问题 的 解决 方案 。 在 问题 的 解决 过 程 中 ， 会 探索 各 种 技术 用 以 预测 
结果 事件 的 类 型 。 并 且 了 解 正在 解决 什么 问题 ， 使 用 什么 算法 以 及 为 什么 ， 通 过 这 种 方 
式 开 始 解决 问题 。 然 后 ， 学 习 统计 技术 的 基础 知识 ， 实 际 解决 预测 问题 。 最 后 ， 好 好 地 
消化 结果 ， 将 从 中 获得 的 洞 见 与 前 面 的 故事 〈 即 分 析 ) 结合 起 来 增强 解决 方案 。 

在 本 章 中 ， 将 探讨 一 些 简单 的 算法 ， 如 线性 回归 、Logistic 回归 和 决策 树 。 而 至 第 $ 
章 时 ， 会 研究 用 于 预测 性 分 析 的 更 先进 和 更 复杂 的 机 器 学 习 技 术 。 本 章 将 重点 讨论 以 下 
主题 : 


重新 探查 问题 一 一 接 下 来 是 什么 。 
线性 回归 一 一 预测 连续 结果 。 
决策 树 一 一 直觉 预测 法 。 
Logistic 回归 一 一 预测 二 元 结果 。 


口 口 口 口 


41 重新 探查 问题 一 一 接 下 来 是 什么 


在 研究 预测 性 分 析 的 各 种 不 同 技术 之 前 ， 先 来 回顾 前 述 ， 认 真 思考 接 下 来 要 做 什么 ， 
以 便 更 好 地 解决 问题 。 在 第 3 章 找 出 了 造成 产品 质量 欠 佳 的 原因 之 后 ， 将 所 有 发 现 进行 
消化 最 后 形成 一 个 故事 〈 即 解决 方案 ) 。 而 约翰 看 起 来 也 对 我 方 团队 的 解决 方案 印象 深 


*110° 当 大 数据 遇见 物 联网 一 一 智能 决策 解决 之 道 


刻 。 他 的 团队 研究 了 影响 洗涤 剂 生产 质量 的 各 种 因素 ， 并 且 在 生产 洗涤 剂 之 前 ， 为 了 解 
决 劣质 产品 问题 而 举行 头脑 风暴 会 议 ， 采 取 相应 的 对 策 。 该 团队 认定 一 个 关键 的 成 品质 
量 参数 ， 即 Output Quality Parameter 2 成 品质 量 参数 2) 对 最 终 的 结果 影响 非常 大 。 不 
仅 如 此 ， 他 们 还 希望 帮忙 构建 一 个 解决 方案 ， 帮 助 他 们 在 启动 生产 过 程 之 前 了 解 洗涤 剂 
的 质量 。 如 果 这 个 团队 事先 知道 将 要 生产 的 洗涤 剂 的 最 终 质 量 ， 倘 若 清楚 会 出 现 质量 欠 
佳 的 情况 时 ， 他 们 就 能 立即 采取 对 策 来 提高 产品 质量 。 在 生产 过 程 启动 之 前 ， 能 够 预见 
品质 量 参数 2 关键 质量 参数 ) 的 预测 值 或 洗涤 剂 的 实际 最 终结 果 〈 即 良品 /不 良品 ) ， 
必定 能 让 该 团队 获 益 颇 丰 。 

实际 上 这 属于 两 个 完全 不 同 的 问题 。 再 次 以 烹饪 来 做 比喻 ， 这 样 更 加 通俗 易 懂 。 比 
方 说 ， 您 正在 者 意大利 面 ， 在 毫 饪 前 早已 准备 好 了 一 切 所 需 的 配料 。 而 您 的 朋友 瑞 克 是 
一 位 经 验 丰富 的 专业 厨师 ， 精 于 亮 饪 各 式 各 样 的 菜肴 。 在 您 正 要 做 意大利 面 时 ， 瑞 殉 前 
来 登门 拜访 。 他 仔细 查看 备 好 的 各 种 配料 和 数量 ， 并 且 也 设想 您 一 定 会 按照 食谱 襄 饪 。 
可 是 在 瑞 克 仔细 检查 了 食材 的 数量 和 质量 后 ， 他 不 禁 对 这 份 意大利 面 的 味道 先 做 预 估 评 
分 ， 如 果 按照 1~9 分 (9 分 为 最 好 ) 来 评分 ， 他 预 估 这 道 面 的 得 分 大 概 只 有 6.5 分 〈 平 
均 水 平 ) 。 您 听 了 后 既 诅 形 又 失望 ， 于 是 忍 不 住 追 问 瑞 克 原因 何在 。 瑞 克 忍 俊 不 禁 ， 指 
了 指 姜 黄粉 和 疗 椒 粉 ， 告 诉 您 这 两 种 香料 等 级 看 起 来 并 不 高 。 在 他 的 建议 下 ， 您 去 邻居 
家 借 了 一 些 品 质 上 佳 的 姜黄 粉 和 辣椒 粉 。 香 料 借 回 来 后 ， 瑞 克 细 细 查 看 并 连连 点 头 道 ; 
“ 没 错 ， 这 才 是 上 乘 的 香料 ! 可 以 拿 到 S.S 分 (达到 优秀 ) 了 ! ”于 是 您 满怀 信心 重 返 后 
房 准备 美味 无 比 的 晚餐 。 

这 样 的 比喻 非常 直观 ， 对 吗 ? 我 们 也 希望 能 拥有 一 个 像 瑞 克 一 样 的 朋友 ， 为 遇 到 的 
每 一 个 问题 排忧解难 。 

约翰 同样 也 需要 这 样 一 位 专家 ， 和 希望 他 能 够 协助 负责 生产 洗涤 剂 的 技术 人 员 。 这 位 
专家 会 预先 检查 准备 好 的 配料 〈 即 原料 ) ， 估 计 将 要 生产 的 洗涤 剂 质量 ，《〈 如 果 洗 涤 剂 
质量 差 ) 在 生产 启动 之 前 即 可 采取 预防 措施 。 该 专家 可 以 告诉 技术 人 员 ， 如 果 采 用 规定 
数量 的 现 有 原料 ， 那 么 洗涤 剂 的 最 终 质 量 〈 参 数值 ) 约 为 670 个 单位 (假设 ) 。 这 时 技 
术 人 员 认 识 到 ， 如 果 最 后 得 到 是 这 样 的 质量 参数 ， 那 么 即将 生产 的 洗涤 剂 为 不 合格 品 的 
可 能 性 是 非常 高 的 。 因 此 技术 人 员 就 迅速 召唤 仓库 负责 人 更 换 一 些 原料 ， 或 者 改变 机 器 
的 一 些 设置 。 整 个 过 程 可 用 一 个 简单 的 词语 来 归纳 一 一 预测 。 洞 见 未 来 可 以 帮助 每 个 人 
避免 陷入 困境 。 约 翰 希 望 我 们 能 够 建立 一 个 系统 ， 帮 助 他 的 团队 找到 关于 最 终 产 品质 量 
问题 的 答案 。 答 案 是 肯定 的 ! 我 方 团队 绝对 可 以 帮助 他 建立 一 个 系统 ， 预 测 洗涤 剂 的 质 
量 后 再 进行 生产 。 下 面 就 来 了 解 是 如 何 实现 这 个 目标 的 。 

根据 最 终结 果 ， 需 要 解决 两 个 不 同类 型 的 问题 。 至 于 预测 方法 ， 可 以 预测 每 个 单独 
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的 质量 参数 或 最 终结 果 〈 即 良品 /不 良品 ) 。 后 者 是 一 个 分 类 结果 ， 而 前 者 是 一 个 连续 结 
果 。 接 下 来 分 别 解决 这 两 个 问题 。 最 后 根据 结果 的 情况 ， 再 确定 哪 一 个 模型 更 好 。 首 先 
尝试 解决 第 一 个 问题 ， 即 最 为 关键 的 预测 。 


42 ”线性 回归 一 一 预测 连续 结果 


可 用 于 预测 的 统计 技术 不 胜 枚 举 ， 而 且 使 用 何 种 技术 是 由 因 变量 的 类 型 (连续 型 /类 
别 型 ) 来 决定 的 。 处 理 这 两 个 完全 不 同 的 类 别 时 须 选用 各 不 相同 的 技术 或 算法 。 这 时 可 
应 用 线性 回归 来 预测 分 类 变量 , 而 Logistic 回归 则 预测 连续 变量 。 可 供 预测 性 分 析 采 用 的 
技术 还 有 许 许多 多 ， 但 是 下 面 先 使 用 线性 回归 来 解决 预测 连续 变量 的 问题 。 


4.2.1 预测 性 分 析 拉 开 序 幕 


着 手 弄 明白 将 要 构建 的 系统 之 前 ， 先 花 点 时 间 仔 细 琢 磨 约翰 团队 的 需求 ， 了 解 清楚 
他 们 对 《最 终 分 析 的 ) 结果 有 什么 应 用 计划 。 在 生产 过 程 启动 之 前 ， 该 团队 希望 我 方 帮 
助 建立 一 个 可 以 预测 实际 质量 参数 (成品 质量 参数 2) 的 系统 。 这 样 ， 技 术 人 员 和 仓库 负 
责 人 的 团队 提前 一 天 准备 ， 把 所 需 的 原料 和 机 器 准备 妥当 ， 对 生产 进行 规划 ， 生 产 洗涤 
剂 。 所 建立 的 系统 须 能 够 根据 现 有 信息 预测 最 终 产品 的 (连续 型 ) 质量 参数 ， 这 些 现 有 
的 信息 包括 原料 数量 和 质量 这 两 种 维度 ， 已 确定 的 机 器 /资源 ， 要 使 用 的 流水 线 ， 计 划 生 
产 的 时 间 / 天 数 等 。 而 在 做 规划 时 还 无 法 提供 运营 这 个 维度 的 数据 。 在 生产 过 程 之 前 ， 对 
最 终 产 品质 量 参数 的 预测 能 够 帮助 技术 人 员 迅 速 采取 对 策 ， 以 减少 生产 劣质 产品 的 可 能 
性 。 将 质量 参数 预测 与 基准 参数 进行 对 比 ， 以 及 估计 各 种 不 同 因素 〈 对 产品 质量 的 ) 影 
响 程 度 ， 可 帮助 技术 人 员 快 速 采取 修正 措施 进行 调整 ， 例 如 以 质量 上 乘 的 备用 原料 替换 
质量 差 的 原料 ， 或 者 修复 与 机 械 或 流水 线 相关 的 问题 ， 或 者 修复 已 确定 会 对 提高 质量 产 
生 重 大 影响 的 其 他 任何 维度 的 问题 ， 从 而 减少 损失 。 


4.2.2 解决 预测 问题 


为 了 预测 所 生产 的 洗涤 剂 的 质量 参数 ， 即 一 个 连续 变量 ， 这 里 采用 一 种 非常 著名 且 
方便 易 用 的 统计 技术 一 一 线性 回归 。 还 有 很 多 其 他 (甚至 更 强大 ) 的 选择 ， 但 是 先 从 一 
个 基本 的 算法 开始 。 
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线性 回归 的 定义 

线性 回归 是 一 种 统计 技术 ， 通 过 将 线性 方程 拟 合 到 观测 数据 中 ， 对 一 个 因 变量 和 一 
个 或 多 个 自 变量 之 间 的 关系 进行 建 模 。 它 是 对 变量 之 间 线 性 、 加 性 关系 Cadditive 
relationship) 的 研究 。 当 自 变 量 只 有 一 个 时 ， 称 为 “简单 线性 回归 ”， 而 对 多 个 自 变量 一 
起 研究 时 ， 称 为 “多 元 线性 回归 ”。 一 般 而 言 ， 很 少 使 用 简单 线性 回归 。 所 处 理 的 大 多 
数 商 业 用 例 都 会 用 到 多 元 线性 回归 。 因 此 ， 从 这 里 开始 ， 后 续 用 例 和 内 容 提 到 的 线性 回 
归 ， 都 是 指 多 元 线性 回归 。 接 下 来 马上 去 解决 前 文 所 遇 到 的 问题 。 后 面 在 遇 到 线性 回归 
问题 时 ， 还 会 介绍 与 之 相关 的 新 概念 。 

最 终结 果 或 因 变 量 是 成 品质 量 参数 2。 须 十 分 仔细 地 选择 输入 变量 ， 因 为 要 建立 一 个 
在 生产 过 程 开始 之 前 将 现 有 数据 点 都 考虑 进去 的 预测 模型 。 正 待 解决 的 这 个 用 例 抓 取 了 
整个 生产 过 程 中 的 数据 维度 。 请 参考 第 3 章 “ 探 索性 决策 科学 在 物 联网 中 的 应 用 内 容 和 
原因 ”的 “3.1.4 了 解数 据 全 貌 ” 小 节 ， 这 节 内 容 详细 介绍 了 在 生产 过 程 之 前 、 生 产 期 
间 和 生产 之 后 捕获 了 哪些 数据 维度 。 

可 从 全 部 现 有 数据 维度 中 ， 将 选择 范围 缩小 到 以 下 维度 : 生产 日 期 、 订 单 量 和 生产 
量 〈 生 产量 通常 在 生产 过 程 开始 之 前 的 最 后 一 刻 发 生 改 变 ) 、 生 产 过 程 中 使 用 的 流水 线 
和 机 器 /资源 、 原 料 数量 和 质量 等 。 不 会 采用 诸如 延迟 提示 、 总 体 和 每 个 阶段 的 加 工时 间 、 
每 个 阶段 产生 的 混合 物 成 品质 量 参数 等 维度 ， 因 为 这 些 维度 仅 在 生产 过 程 期 间或 之 后 才 
可 用 。 其 他 生产 流程 层级 的 维度 ， 如 地 点 、 位 置 、 产 品 等 ， 可 以 在 理想 情况 下 使 用 ， 但 
此 用 例 中 的 数据 只 是 包含 一 个 位 置 和 一 个 产品 的 子 集 ， 所 以 在 模型 构建 练习 中 并 不 具有 
任何 价值 。 

因此 ， 简 而 言 之 ， 必 须 对 一 个 关系 进行 建 模 以 预测 “成 品质 量 参数 2 (Output Quality 
Parameter 2) ”， 为 下 述 参 数 构建 一 个 函数 : 原料 数量 和 质量 参数 、 生 产量 偏差 (特征 ) 、 
每 个 阶段 使 用 的 流水 线 和 机 器 /资源 、 与 先前 产品 相关 的 特征 ， 以 及 与 生产 日 期 和 时 间 相 
关 的 特征 。 

可 应 用 stats 包 中 的 Im0 函 数 去 建立 一 个 线性 回归 模型 。 

lm0 函 数 可 用 于 拟 合 线性 模型 。 以 下 示例 显示 了 如 何在 及 语言 中 使 用 这 个 函数 : 


> #Linear Regression Example 
(线性 回归 例子 ) 
> fit <- Im(y - x1 + x2 + x3, data-mydata) 


> summary (fit) # show results 


这 里 ，y 是 自 变 量 ，x1、x2 和 x3 也 是 自 变量 。 创 建 了 模型 后 ， 可 用 summary) Až 
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结果 汇总 摘要 。 接 着 尝试 采用 因 变 量 “ 成 品质 量 参数 2” 和 现 有 的 几 个 独立 维度 来 解决 
1451 [ia] iB. 
O +s: 

在 第 一 步 中 采用 一 些 随 机 的 独立 维度 并 不 是 最 好 的 方法 ， 这 样 做 的 目的 更 多 的 是 让 
读者 熟悉 这 项 统计 技术 。 稍 后 会 在 后 续 练习 中 讨论 一 些 最 佳 做 法 和 备 选 方案 。 


M 


€ 


#Performing Linear Regression on a few independent variables 

(对 几 个 自 变量 实施 线性 回归 分 析 》 

> fit<-lm(Output QualityParameter2~ 
#The Production Quantity deviation feature 
(生产 量 偏差 特征 ) 
data$Quantity Deviation new + 
#The Production Quantity deviation feature 
〈 生 产量 偏差 特征 ) 
data$Stagel PrevProduct 1 + 
#Stage 1 Raw Material Quality Parameters 
(阶段 1 原料 质量 参数 ) 
data$Stagel RM2 QParameterl + 
data$Stagel RM2 QParameter2 + 
data$Stagel RM1 QParameterl + 
data$Stagel RM1 QParameter2 + 
#Machine/Resources used in a Stage 
(一 个 阶段 中 使 用 的 机 器 /资源 ) 
data$Stage3 ResourceName new + 
data$Stagel ProductChange Flag+ 
#Flag indicating Normal/Abnormal consumption 
(显示 正常 /不 正常 消耗 的 提示 ) 
data$Stagel RM2 Consumption Flag 

r 
data=data 
) 


> summary (fit) 
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$Result Output 

Call: 

1m(formula = Output QualityParameter2 ~ data$Quantity Deviation new + 
data$Stagel PrevProduct 1 + data$Stagel RM2 QParameterl + 
data$Stagel RM2 QParameter2 + data$Stagel RM] QParameterl + 
data$Stagel RMl QParameter2 + data$Stage3 ResourceName new + 
data$Stagel ProductChange Flag « data$Stagel RM2 Consumption Flag, 


data = data) 


Residuals: 
Min 1Q Median 3Q Max 
-2632.6 -591.7 4.0 à 503.2 5064.6 


Coefficients: 

Estimate Std. Error t value Pr(»|t|) 
(Intercept) 2299.1744 795.2243 2.891 0.00392 
data$Quantity Deviation newLow 97.1952 70.6117 1.376 0.16899 
data$Quantity Deviation newMedium -70.0664 75.0060 -0.934 0.35046 
data$Stagel PrevProduct lProduct 545 252.0285 .6254 2.364 0.01829 
data$Stagel RM2 QParameterl 84.1166 .5395 15.185 « 2e-16 
data$Stagel RM2 QParameter2 -16.5414 .9058 -1.857 0.06356 . 
data$Stagel RMl QParameterl 0.3223 .1823 .768 0.07735 . 
data$Stagel RMl QParameter2 15.4425 .4700 .134 0.89364 
data$Stage3 ResourceName newResource 108 384.2826 96.5075 .982 7.34e-05 
data$Stage3 ResourceName newResource 109 -149.8731 96.1707 .558 0.11946 
data$Stagel ProductChange FlagYes -29.5209 105.0881 .281 0.77883 
data$Stagel RM2 Consumption FlagNormal -367.6675 77.3153 .755 2.27e-06 


Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1' ' 1 


Residual standard error: 923.4 on 988 degrees of freedom 


Multiple R-squared: 0.4673, Adjusted R-squared: 0.4614 


F-statistic: 78.81 on 11 and 988 DF, p-value: < 2.2e-16 


以 上 输出 结果 看 似 让 人 颇 费 脑筋 ? 如 果 感 觉 对 上 述 输出 结果 不 太 容 易 理解 ， 请 不 必 
担心 。 下 面 将 逐步 探讨 这 些 结果 中 的 重要 信息 。 先 来 观察 〈 灰 色 ) 突出 标注 的 不 同 部 分 ， 
从 这 些 部 分 开始 ， 最 后 再 深入 了 解 其 他 信息 。 

首先 要 清楚 到 底 要 达成 什么 目标 。 在 线性 回归 中 ， 要 识别 一 个 因 变 量 和 多 个 自 变 量 
之 间 的 关系 。 当 获得 相应 的 多 个 自 变量 的 值 以 及 每 个 自 变量 对 因 变 量 的 影响 时 ， 这 种 关 
系 将 帮助 确定 因 变 量 的 值 。 简 而 言 之 ， 有 两 个 简单 的 结果 : 因 变 量 值 的 预测 值 和 每 个 单 
独 的 自 变量 的 量化 影响 。 

那么 如 何 才能 获得 这 些 结果 ? 

线性 回归 方程 如 下 : 


|= 


Y-fotfi Xith Xy B, Xte 
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其 中 : 

口 7 一 一 因 变 量 。 

O 如 一 一 截 距 。 

O A— —H-T xi iffiitfü. 
0 x —BAX&EI. 

D oe 一 一 误差 项 。 


对 于 任何 特定 的 情况 ， 如 果 有 多 个 自 变量 的 值 ( 如 原料 质量 参数 ) 及 其 估计 值 ， 即 
该 变量 对 因 变 量 (成 品质 量 〉 的 影响 ， 则 可 以 预测 成 品质 量 的 值 。 截 距 是 一 个 常数 ， 即 
拟 合 线 穿 过 y 轴 的 值 。 

还 需 对 几 个 较为 宽泛 的 领域 了 解 清楚 ， 如 公式 、 残 差 偏差 (residual deviance) 、 截 
距 、 估 计 值 、 标准 误差 、 多 个 自 变量 、 截 距 的 1 值 和 jp 值 、 残 差 标 准 误差 (Tesidual standard 
eror) 、R 平方 和 了 下 统计 量 等 ， 这 样 才能 方便 诠释 输出 结果 。 在 深入 进行 回归 练习 之 前 ， 
首先 要 掌握 这 些 主要 内 容 。 


4.2.3 解释 回归 结果 


线性 回归 的 整个 过 程 ， 即 体现 了 多 个 自 变 量 和 一 个 因 变 量 之 间 存 在 关系 的 一 个 事实 。 
如 果 情 况 并 非 如 此 ， 那 么 绝对 没有 必要 往 下 继续 分 析 。 但 是 ， 如 果 至 少 存在 一 个 与 因 变 
量 有 关 的 变量 ， 那 么 就 需要 找到 该 自 变 量 的 估计 值 来 构建 方程 。 通 过 计算 估计 值 (系数 ) 
和 截 距 ， 可 以 构建 一 个 有 助 于 预测 因 变 量 的 方程 。 

在 预测 因 变量 的 值 之 前 ， 要 知道 以 下 几 点 : 即 估计 值 的 正确 性 和 预测 的 准确 性 分 别 
有 多 高 。 为 了 帮助 理解 这 些 重要 的 问题 ， 回 归结 果 为 我 们 提供 了 各 种 检验 结果 和 估计 值 。 
通过 检查 这 些 检验 和 估计 值 的 结果 ， 可 了 解 拟 合 优 度 ， 换 言 之 ， 即 知道 已 定义 的 因 变 量 
和 自 变量 之 间 的 关系 究竟 如 何 。 上 一 节 讨论 过 的 那些 宽泛 主题 内 容 ， 对 理解 拟 合 优 度 也 
会 大 有 帮助 。 紧 接着 逐个 探索 这 些 结果 。 

1. F 统计 量 

线性 回归 的 第 一 步 是 检查 多 个 自 变量 和 一 个 因 变 量 之 间 是 否 存在 关系 。 用 前 面 章节 
中 所 学 的 相同 方法 〈 即 假设 检验 ) 来 解决 这 个 问题 。 定 义 一 个 原 假设 和 备 择 假设 ， 如 下 
所 示 。 
D H0: 一 个 因 变 量 和 多 个 自 变量 之 间 不 存在 关系 。 
D HL 多 个 自 变量 中 至 少 有 一 个 自 变量 是 相关 的 。 
为 了 检验 假设 ,计算 F 统计 量 。F 统计 量 用 于 检验 一 组 变量 是 否 具有 联合 显著 性 (类 
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似 于 t 检 验 的 t 统 计量 ， 它 证 实 了 单个 变量 是 否 具有 统计 上 的 显著 性 ) 。 根 据 回 归结 果 ， 
可 以 注意 到 最 后 一 栏 (灰色 ) 突 出 显示 的 结果 ,“F-statistic: 78.81 on 11 and 988 DF, p-value: 
<2.2e-16”。 整 体 p 值 低 于 所 期 望 的 临界 值 5%， 而 下 统计 量 可 以 解释 为 越 高 越 好 。 如 果 


F 统计 量 接近 于 1， 则 原 假设 为 真 的 可 能 性 越 高 。 在 这 个 例子 中 ， 由 于 下 统计 量 大 于 1, 


可 以 轻松 地 拒绝 原 假设 。 这 时 不 禁 会 问 ， 在 解释 F 统计 量 时 ， 多 大 
原 假设 ? 
有 一 个 经 验 法 则 ， 即 可 以 调 出 〈z = 数据 的 行 数 ，P = 自 变 量 数 


的 下 统计 量 才 能 拒绝 


) ; O5 n 很 大 时 ， 即 


n» (px20) (每 个 自 变量 至 少 有 20 种 情况 ) 。 哪 怕 下 统计 量 只 是 略 高 于 1， 就 足以 让 我 


们 拒绝 原 假设 。n 较 低 时 ，F 统计 量 需 要 更 高 才 可 以 拒绝 原 假设 。 
此 外 , F 统计 量 总 是 随 着 整体 p 值 一 起 研究 的 。 有 了 前 面 的 结果 


原 假设 不 太 可 能 为 真 。 因 此 ， 可 以 拒绝 原 假设 ， 并 且 肯 定 至 少 有 一 


间 存 在 关系 ， 进 而 对 此 关系 建 模 。 
2. 估计 值 /系数 


, 即 可 得 出 以 下 结论 : 
个 自 变量 和 因 变 量 之 


一 旦 确定 了 即将 建 模 的 关系 的 范围 ， 继 续 讨论 结果 的 最 重要 部 分 ， 即 每 个 自 变量 的 


估计 值 ， 以 帮助 量化 每 个 自 变 量 对 最 终 因 变 量 的 影响 程度 。 


CoefficientsÓ: 
Estimate? 

(Intercept9) 2299.1744 
data$Quantity Deviation newLow 97.1952 
data$Quantity Deviation newMedium -70.0664 
data$Stagel PrevProduct 1Product 545 252.0285 
data$Stagel RM2 QParameteri 84.1166 
data$Stagel RM2 QParameter2 -16.5414 
data$Stagel RM1 QParameterl 0.3223 
data$Stagel RM1 QParameter2 15.4425 
data$Stage3 ResourceName newResource 108 384.2826 
data$Stage3 ResourceName newResource 109 -149.8731 
data$Stagel ProductChange FlagYes -29.5209 
data$Stagel RM2 Consumption FlagNormal -367.6675 

9 系数 一 一 译 者 注 

e 估计 值 一 一 译 者 注 


? 截 距 一 一 译 者 注 
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上 面 的 代码 呈现 了 一 小 部 分 较 早 共享 的 回归 输出 结果 。 估 计 值 显示 了 它们 对 因 变 量 
4 影响 程度 。 估 计 值 为 正 表 明 ， 对 于 相应 的 自 变 量 每 增加 一 个 单位 ， 结 果 相 应 增加 ， 反 
之 亦 然 。 正 如 所 看 到 的 ， 回 归 方 程 (公式 ) 中 使 用 的 所 有 自 变 量 都 有 一 个 单独 的 估计 值 ， 
但 是 发 现 ， 对 于 像 Stage 3 Resource name 〈 即 阶段 3 资源 名 称 ) 这 样 的 分 类 变量 ， 该 维度 
已 经 在 内 部 将 它们 分 别 转换 为 二 进 制 标志 的 估计 值 。 这 是 因为 线性 回归 只 处 理 连续 变量 ， 
因此 每 个 分 类 变量 在 内 部 被 编码 为 二 进 制 标志 。 除 了 自 变 量 ， 还 看 到 了 截 距 。 截 距 可 以 
简单 地 称 为 回归 线 与 y 轴 相 交 的 点 ， 也 可 以 解释 为 当 义 为 0 时 ，Y 的 期 望 均值 。 为 了 更 
彻底 地 理解 这 一 点 ， 假 设 将 身高 建 模 成 为 一 个 年 龄 和 性 别 的 函数 。 性 别 是 一 个 分 类 变量 
(会 在 内 部 编码 为 1 和 0) ， 男 性 为 1， 女性 为 0。 因此， 当 的 值 为 零 时 ， 方 差 可 通过 
截 距 计算 出 来 。 

3. 标准 误差 、t 值 和 p 值 

仔细 观察 估计 值 ， 即 使 已 经 证 实 多 个 自 变量 和 一 个 因 变 量 之 间 存 在 关系 ， 也 可 能 
法 直接 断言 结果 。 这 里 不 确定 每 个 变量 是 否 会 产生 影响 。 为 了 确认 这 些 变 量 的 每 一 个 估 
计 值 是 否 显著 ， 对 诸如 标准 误差 、t 检验 、p 值 等 估计 值 上 进行 各 种 检验 ， 并 获得 相应 的 
结果 。 下 面 看 看 如 何 解释 它们 ; 


Coetticients: 


Estimate Std. Error t value Pr(»|t|) 
(intercept) 2299.1744 795.2243 2.891 0.00392 ** 
data$SQuantity Deviation newLow 97.1952 70.6117 1.376 0.16899 
data$Quantity Deviation newMedium -70.0664 75.0060 -0.934 0.35046 
dataSstagel PrevProduct lProduct 545 252.0285 106.6254 2.364 0.01829 * 
data$Stagel RM2 QParameteri 84.1166 5.5395 15.185 < 2e-16 *** 


dataSStagel RM2 QParameter2 -16.5414 8.9058 -1.857 0.06356. 
data$Stagel RM1 QParameteri 0.3223 0.1823 1.768 0.07735. 
data$Stagel RM1 QParameter2 15.4425  Á 115.4700  Á 0.134 0.89364 
data$Stage3 ResourceName newResource 108 384.2826 96.5075 3.982 7.34e-05 *** 
dataSStage3 ResourceName newResource 109 -149.8731 96.1707 -1.558 0.11946 
data$Stagel Productchange F lagYes -29.5209 105.0881 -0.281 0.77883 
data$Stagel RM2 Consumption. F lagNormal -367.6675 77.3153 -4.755 2.27e-06 *** 


使 用 所 有 这 些 结果 的 目的 是 ， 验 证 因 变 量 和 每 个 自 变量 之 间 是 否 存在 关系 。 为 了 证 
明 这 一 点 ， 计 算 标准 误差 ， 将 原 假设 设 为 x M y 之 间 不 存在 关系 ， 然 后 确定 估计 值 是 否 
真 的 偏离 0 很 远 。 如 果 估 计 值 的 标准 误差 很 小 ， 那 么 估计 值 的 相对 较 小 的 值 可 以 拒绝 原 
假设 。 如 果 标 准 误差 很 大 ， 那 么 估计 值 也 应 该 足够 大 才 可 以 拒绝 原 假设 。 为 了 证 明 这 个 
假设 , 计算 t 统 计量 , 它 检测 估计 值 偏 离 0 的 标准 差 的 个 数 。 或 者 ， 可 计算 每 个 自 变量 的 
P 值 ， 帮 助 确定 x fI y 之 间 是 否 存在 任何 关系 。 通 过 查看 结果 右边 的 “*” 星 号 标注 ， 就 
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能 轻而易举 地 解释 整个 过 程 。 仔细 看 看 Stage 1 RM2 Quality Parameter 1 和 2。 星 号 越 多 则 
表示 p 值 较 低 ， 而 较 低 的 p 值 则 暗示 变量 和 成 品 之 间 存在 关系 的 可 能 性 较 高 ， 估 计 值 为 
真 的 可 能 性 也 越 高 。 

同样 ， 掌 握 了 哪个 维度 与 结果 具有 更 强 的 关系 以 及 如 何 影响 结果 的 详细 情况 之 后 ， 
就 需要 更 多 的 统计 数据 来 帮助 理解 拟 合 优 度 。 如 果 浏 览 〈 本 节 开 头 提供 的 ) 回归 结果 ， 
可 以 看 到 残 差 、 多 元 及 平方 、 残 差 标 准 误差 和 修正 后 的 及 平方 。 接 下 来 更 加 彻底 地 理解 
这 些 结果 。 


424 残 差 、 多 元 平方 、 残 差 标 准 误差 和 修正 后 的 R 平方 


残 差 可 以 定义 为 因 变 量 的 实际 值 和 预测 值 之 间 的 差 值 。 残 差 越 低 ， 越 接近 预测 。 输 
出 中 显示 的 第 一 个 结果 (公式 之 后 ) 是 残 差 的 百 分 位 数 分 布 。 在 预测 现 有 数据 的 值 之 后 ， 
如 果 观 察 残 差 一 误差 一 一 的 百 分 位 数 分 布 ， 就 能 明白 它们 的 具体 表现 。 
残 差 : 
Min 19 Median 3Q Max 
-2632.6 -591.7 4.0 503.2 5064.6 


残 差 的 范围 是 -2632 一 95064， 即 大 约 7500 个 单位 的 范围 。 因 变量 的 均值 约 为 15000， 
而 且 如 果 预 测 值 有 7500 的 误差 ， 那 么 就 几乎 不 会 增加 任何 值 。 但 是 ， 如 果 仔 细 观 察 ， 可 
以 看 到 更 清晰 的 情况 。 中 位 数 =4， 并 且 另 外 第 25 百 分 位 数 到 第 75 百 分 位 数 的 最 大 范围 
约 为 1000 单位 。 因 此 ， 发 现 一 大 部 分 数据 预测 的 最 大 误差 约 为 1000 单位 ， 这 似乎 是 一 
个 合理 的 预测 (当然 绝对 不 是 最 好 的 预测 ， 这 个 实验 只 是 一 个 练习 的 第 一 个 迭代 ) 。 同 
样 可 以 用 残 差 标准 误差 进行 更 好 的 研究 。 


Residual standard error: 923.4 on 988 degrees of freedom 


残 差 标准 误差 是 表示 观测 值 从 回归 线 落下 的 平均 距离 的 残 差 的 标准 误差 。 简 而 言 之 ， 
回归 的 标准 差 帮助 理解 使 用 响应 变量 的 单位 时 ， 回 归 模 型 错误 程度 平均 有 多 高 。 值 越 小 
越 好 ， 这 表明 观测 值 更 接近 拟 合 线 。 因 此 ， 可 以 从 前 面 的 结果 推断 出 ， 对 于 均值 为 15000 
的 响应 变量 ， 预 计 有 大 约 923 个 单位 的 误差 。 这 些 结果 看 起 来 足够 好 了 ， 因 为 实际 上 使 
用 较 低 的 残 差 来 解释 了 一 部 分 方差。 

多 元 及 平方 是 衡量 整体 拟 合 优 度 的 另 一 个 指标 。 由 于 多 元 及 平方 具有 易于 解释 的 优 
点 ， 有 时 候 它 比 残 差 标准 误差 更 受 人 青睐 ， 尽 管 它 应 用 起 来 须 因 分 析 而 异 。R 平方 是 表 
示 数 据 与 拟 合 回归 线 的 距离 的 统计 度量 。 它 也 被 称 为 多 元 回归 的 判定 系数 或 多 元 判定 系 
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数 。R 平方 -解释 方差/ 总 方差 。 它 从 预测 的 残 差 中 计算 得 来 ,但 结果 与 响应 变量 的 大 小 无 
关 。 和 前 面 一 样 ， 响 应 变量 的 平均 误差 为 923 个 单位 。 在 这 里 ， 如 果 不 知 道 响 应 变量 的 
大 小 ， 就 无 从 理解 结果 ， 而 且 在 脑海 中 计算 误差 大 小 时 ， 有 时 候 甚至 会 曲解 了 误差 的 影 
响 。 然 而 ，R 平方 与 响应 变量 大 小 无 关 ， 因 此 对 下 面 的 解释 不 仅 十 分 直观 也 非常 容易 。 


Multiple R-squared: 0.4673, Adjusted R-squared: 0.4614 


正如 所 见 ，〈 多 元 ) R 平方 的 值 是 0.46， 即 46%， 这 个 数字 不 是 很 好 。 可 以 推断 ， 只 
有 46% 的 方差 实际 上 是 由 回归 模型 解释 的 〈 若 要 取得 一 个 较 好 的 及 平方 值 ， 完 全 取决 于 商 
业 用 例 ) 。 同 时 也 发 现在 〈 多 元 ) R 平方 值 的 右边 ， 修 正 后 的 及 平方 值 比 了 平方 略 低 。 

R 平方 修正 值 

修正 后 的 了 平方 检验 包含 了 不 同 数量 的 独立 维度 的 回归 模型 的 方差 解释 能 力 。 

假设 将 含有 一 个 较 高 RR 平方 的 10 个 独立 维度 模型 与 一 个 只 含有 一 个 独立 维度 的 模型 
进行 比较 。 第 一 个 模型 的 RR 平方 较 高 ， 是 因为 该 模型 更 好 ? 还 是 因为 它 含有 更 多 的 自 变 
量 /维度 所 以 R 平方 较 高 ? 这 就 是 R 平方 修正 值 的 用 武之 地 。 修 正 后 的 R 平方 是 R 平方 
的 调整 版 本 ， 针 对 模型 中 的 独立 维度 的 数量 进行 了 调整 。 只 有 当 新 的 维度 改进 模型 偶然 
高 于 可 能 预期 时 ， 修 正 后 的 R 平方 才 会 增加 。 而 当 一 个 预测 因子 改进 模型 的 可 能 性 偶然 
低 于 预期 时 ， 修 正 后 的 了 平方 会 减少 。 修 正 后 的 了 平方 可 以 是 负数 〈 非 常 军 见 ) 。 但 它 
总 是 低 于 及 平方 。R 平方 和 修正 后 的 平方 的 巨大 差异 表明 ， 在 回归 分 析 练 习 中 考虑 到 
的 许多 维度 ， 并 不 有 助 于 解释 因 变 量 的 方差 。 
至 今 为 止 ， 我 们 利用 前 面 章节 学 习 过 的 用 例 ， 深 入 探讨 了 线性 回归 。 也 认真 琢磨 何 
时 应 该 运用 线性 回归 以 及 为 何 运 用 的 原因 ， 并 且 仔 细 探 究 如 何在 R 语言 中 使 用 它 。 此 外 ， 
还 解释 了 输出 结果 以 研究 整体 拟 合 优 度 以 及 较 小 的 单个 维度 。 接 下 来 将 深入 研究 同一 用 
例 的 线性 回归 ， 通 过 提高 拟 合 优 度 而 改进 结果 ， 从 而 增强 总 体 的 预测 能 力 。 


4.2.5 改进 预测 模型 


前 面 的 练习 只 是 用 于 尝试 理解 回归 模型 。 接 着 继续 分 析 ， 以 获得 更 好 、 更 准确 的 预 
测 模型 。 采 用 及 平方 、 修 正 后 的 及 平方 和 残 差 标准 误差 用 来 帮助 理解 整体 拟 合 优 度 。 

1. 确定 分 析 方法 

可 以 用 来 解决 建 模 问 题 的 方法 数不胜数 。 假设 在 25 个 维度 /预测 因子 的 列表 中 , 逐个 
去 添加 预测 因子 ， 相 应 观察 整体 模型 的 差异 和 改进 。 这 种 方法 被 称 为 “向 前 选择 法 
(Forward selection) ”。 也 可 以 换 一 种 方式 ， 首 先 从 第 一 次 迭代 中 的 所 有 变量 开始 ， 然 
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后 根据 检索 结果 剔除 不 太 有 价值 的 预测 因子 。 这 种 方法 则 被 称 为 “向 后 剔除 法 (Backward 
Elimination) ”。 还 有 另 一 种 方法 是 将 两 种 方法 结合 起 来 用 于 构建 最 佳 模型 的 组 合法 。 任 
何 一 种 方法 都 不 错 ， 下 面 采用 向 后 剔除 法 。 

2. 如 何 实现 

接 下 来 将 选择 第 3 章 中 所 有 已 经 确定 为 重要 的 变量 。 然 后 ， 使 用 全 部 独立 的 预测 因 
子 进行 线性 回归 迁 代 ， 尝 试 改 进 结果 。 应 用 p 值 和 估计 值 ， 通 过 使 用 因 变量 结果 可 以 确 
定 每 个 预测 因子 在 定义 一 个 关系 的 重要 性 ， 随 后 吻 除 那些 增加 零 值 或 低 值 的 预测 因子 。 
并 会 对 预测 因子 进行 一 些 数据 转换 ， 以 进一步 改进 结果 ， 最 后 将 在 一 个 未 曾 见 过 的 数据 
集 上 检验 结果 ， 以 检查 模型 在 预测 中 的 效果 。 

3. 开始 建 模 

首先 对 用 例 中 所 有 可 能 的 预测 因子 实施 一 次 迭代 。 


Q ss. 

对 于 这 个 特定 的 用 例 ， 这 里 不 会 采用 数据 中 每 一 个 现 有 可 能 的 变量 。 因 为 这 是 由 要 
使 用 的 解决 方案 的 性 质 决 定 的 。 约 翰 团 队 需 要 的 解决 方案 ， 要 求 是 能 够 在 生产 过 程 之 前 
预测 洗涤 剂 的 成 品质 量 参 数 。 在 第 3 章 中 选用 的 几 个 维度 都 是 在 生产 过 程 中 抓 取 而 来 的 
维度 。 为 了 构建 一 个 符合 约翰 需求 的 解决 方案 ， 只 需要 考虑 那些 在 生产 过 程 之 前 就 能 够 
获得 的 预测 因子 
O ss. 

例如 ， 每 个 阶段 的 加 工时 间 、 延 迟 提 示 和 原料 消耗 提示 只 有 在 生产 过 程 完 成 各 个 阶 
段 之 后 才能 捕获 到 。 但 是 可 以 选用 原料 质量 参数 、 资 源 详 情 、 产 品 细节 、 计 划 量 和 待 生 
产量 、 产 品 变化 提示 等 。 


#Building a Linear Regression Model 

(构建 一 个 线性 回归 模型 ) 

fit<-lm (Output QualityParameter2~ 
#0verall Process dimensions 
(整个 过 程 的 维度 ) 
data$Quantity Deviation new 
*data$AssemblyLine ID 
*data$Stagel PrevProduct 1 


#Stage 1 Raw Material Parameters 
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(阶段 1 原料 参数 ) 

+ data$Stagel RM1 QParameter2 
+ data$Stagel RM1 QParameterl 
+ data$Stagel RM2 QParameter2 
+ data$Stagel RM2 QParameterl 


#Stage 3 Raw Material Parameters 


(阶段 3 原料 参数 ) 

+ data$Stage3 RM1 QParameterl 
+ data$Stage3 RM1 QParameter2 
+ data$Stage3 RM2 QParameterl 
+ data$Stage3 RM3 QParameter2 
+ data$Stage3 RM3 QParameterl 


*data$Stage3 ResourceName new 


*data$Stagel ProductChange Flag 


D 


data-data 
) 


Call: 


1m(formula = Output QualityParameter2 ~ data$Quantity Deviation new + 


dataSAssemblyLine ID + data$Stagei PrevProduct i 
data$Stagei RM1 QParameter2 
data$Stagel RM1 QParameteri 
dataSStagei RM2 QParameteri 


+ 


data$Stagei RM2 QParameter2 
data$Stage3 RM1 QParameteri 


十 
十 

data$Stage3 RM1 QParameter2 + data$Stage3 RM2 QParameteri 
* 


data$Stage3 RM3 QParameter2 


data$Stage3 RM3 QParameteri 


data$Stage3 ResourceName new + data$Stagei ProductChange Flag, 


data - data) 


Residuals: 


Min 1Q Median 3Q Max 
-2691.4 -548.8 -19.4 502.0 4683.3 


coefficients: 


Estimate Std. Error t value 


(Intercept) -362.94335 
data$Quantity Deviation newLow 17.23158 
data$Quantity Deviation newMedium -58.52954 
data$AssemblyLine IDLine 2 485.81219 
data$Stagel PrevProduct iProduct 545 417.65117 
data$stagei RM1 QParameter2 -7.30299 
data$Stagei RM1 QParameteri -0.07852 
data$Stagei RM2 QParameter2 -35.21957 


628.70591 
68. 39549 
72.01983 
71.17584 

104.71284 

113.12474 
0.18680 

8.79188 


-0.577 
0.252 
-0. 813 
6.826 
3.989 
-0.065 
-0.420 
-4.006 


Prē>|tI) 
0.56388 
0. 80114 
0.41659 
; ELT hii] 
7.14e-05 *** 
0.94854 
0.67433 
6.64e-05 *** 
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data$Stagel RM2 QParameteri 39.07678 9.50374 4.112 4.26e-05 *** 
data$Stage3 RM1 QParameteri 19.65419 8.70462 2.258 0.02417 * 
data$Stage3 RM1 QParameter2 -894.10622 740.63916 -1.207 0.22764 
data$Stage3 RM2 QParameteri 6.58343 3.40376 1.934 0.05338. 
data$Stage3 RM3 QParameter2 9.26441 3.36309 2.755 0.00598 ** 
data$Stage3 RM3 QParameteri -156.44916 32.92914 -4.751 2.32e-06 *** 
data$Stage3 ResourceName newResource 108 505.08622 93.90030 5.379 9.36e-08 *** 
data$Stage3 ResourceName newResource 109 210.10217 104.66425 2.007 0.04498 = 
data$Stagel ProductChange FlagYes -104.08007 101.62313 -1.024 0.30600 


Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 *'.' 0.13: ' 1 


Residual standard error: 884.6 on 983 degrees of freedom 
Multiple R-squared: 0.5137, Adjusted R-squared: 0.5058 
F-statistic: 64.89 on 16 and 983 DF, p-value: < 2.2e-16 


正如 所 见 ， 与 之 前 的 结果 相 比 ， 现 在 获得 一 个 相当 好 的 拟 合 优 度 。 残 差 标准 误差 从 
923 减少 到 884， 而 R 平方 从 0.46 增加 到 0.51。 结 果 虽 然 比 以 前 的 迭代 更 好 ， 但 仍然 没 
有 达到 最 好 。 

4. 进一步 分 析 

那些 显著 的 变量 在 上 述 代 码 清单 中 已 〈 用 灰色 ) 标注 出 来 。 接 下 来 可 以 放弃 一 些 不 
显著 的 变量 ， 进 一 步 微调 显著 变量 以 提高 拟 合 优 度 ， 或 者 对 不 显著 以 及 显著 的 预测 因子 
都 尝试 去 做 些 改 进 。 尝 试 后 也 许 会 带 来 一 定 成 效 ， 或 者 也 许 不 会 ， 但 是 如 果 尝 试 后 有 些 
东西 变 得 显著 了 ， 这 无 疑 就 增加 了 很 大 的 价值 。 数 据 转换 是 一 种 试 错 的 方法 。 在 某 些 情 
况 下 对 预测 因子 或 因 变量 应 用 转换 有 助 于 更 直观 地 捕捉 到 变化 。 转 换 可 以 是 任何 形式 ， 
如 平方 (22) 、 立 方 GOD 、 指 数 O 、 对 数 转换 等 。 这 些 转换 可 以 应 用 于 预测 变量 
因 变量 或 两 者 。 

如 果 仔 细 观 察 结果 可 以 看 到 , 9 个 原料 质量 参数 中 只 有 5 个 是 显著 的 。 数 据 转换 可 能 
有 价值 ， 也 可 能 没有 价值 。 结 果 只 能 用 试 错 法 来 验证 。 可 以 尝试 在 预测 因子 、 因 变量 或 
两 者 上 进行 各 种 组 合作 数据 转换 ， 最 后 选择 呈现 最 佳 结果 的 组 合 。 

9 +2: 

建议 执行 各 种 线性 回归 迭代 以 查看 不 同 转换 结果 的 差异 。 以 下 显示 的 输出 结果 ， 是 
针对 不 同类 型 的 数学 数据 转换 执行 的 各 种 迭代 之 一 。 

在 本 用 例 中 ， 很 遗憾 的 是 数据 转换 并 不 能 真正 推动 结果 。 即 使 尝试 各 种 不 同 的 数据 
转换 操作 的 组 合 ， 也 几乎 看 不 到 有 什么 特别 大 的 差别 。 下 面 是 从 多 次 迭代 中 获得 的 最 好 
结果 。 


EDomx 
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Call: 

Im(rormula = log(Output QualityParameter2) ~ dataSQuantity Deviation new + 
data$AssemblyLine ID + data$Stagel PrevProduct 1 + (data$stagel RM2 QParameter2)^3 + 
(dataSStagel RM2 QParameterl)^3 + (dataSStage3 RM1 QParameterl)^3 + 
(data$Stage3 RM3 QParameter2)^3 + (data$Stage3 RM3 QParameter1)^3 + 
data$stage3 ResourceName new + data$stagel ProductChange Flag, 
data - data) 


Residuals: 
Min iQ Median 3Q Max 
-0.174552 -0.035115 -0.000359 0.033994 0.256303 


Coetticients: 
Estimate Std. Error t value Pr(»|t|) 
(intercept) . 6040707 0340016 253.049 < 2e-16 
dataSQuantity Deviation newLow .0020019 0043999 .455 0.649219 
dataSQuantity Deviation newMedium . 0036540 0046184 .791 0.429026 
dataSAssemblyLine IDLine 2 .0306491 0045500 .736 2.76e-11 
dataSstagel PrevProduct 1Product 545 . 0260981 0066912 .900 0.000103 
data$Stagel RM2 QParameter2 0022017 0005660 0.000107 
dataSStagel RM2 QParameteri .0028370 0005889 1.68e-06 
data$Stage3 RM1 QParameteri . 0016332 0005376 > 0.002443 

9 

9. 

1 

0. 

0 


e 


dataS$stage3 RM3 QParameter2 . 0007464 0001899 .05e-05 
data$Stage3 RM3 QParameteri -0.0088619 0019895 .37e-06 
data$Stage3 ResourceName newResource 108 0.0337991 0059072 .40e-08 
data$Stage3 ResourceName newResource 109 0.0139059 0066806 .037643 
dataSstagel ProductChange FlagYes -0.0046708 0064988 .472486 


0. 
0. 
0. 
0. 
0. 
0. 
0. 
0. 
0. 
0. 
0. 
0. 


Signit. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '." 


e 


1*1 


Residual standard error: 0.05718 on 987 degrees of freedom 
Multiple R-squared: 0.5177, Adjusted R-squared: 0.5118 
F-statistic: 88.28 on 12 and 987 DF, p-value: < 2.2e-16 


阶段 1 和 阶段 3 的 原料 质量 参数 已 用 三 次 方 运算 进行 了 转换 ， 并 且 最 终 因 变量 也 应 
用 对 数 运算 做 了 变换 。 和 迭代 过 程 中 执行 这 些 转换 时 ， 从 模型 中 剔除 了 一 些 不 显著 的 连续 
型 预测 因子 。 分 类 变量 的 吻 除 可 能 会 非常 棘手 , 并 且 需 要 再 次 进行 试 错 组 合法 (去 剔除 ) o 
如 果 剔 除 不 显著 的 分 类 变量 导致 结果 恶化 ， 则 将 该 变量 又 添加 回 列 表 中 《这 个 概念 已 经 
在 上 一 节 的 截 距 结 果 解 释 中 详细 阑 述 了 ) 。 可 以 看 到 两 个 原料 质量 参数 预测 因子 已 经 被 
剔除 了 。 最 后 ， 还 注意 到 ， 结 果 已 经 发 生 了 微小 的 改进 。 修 正 了 R 平方 后 ， 比 以 前 的 版 
本 略 好 〈 残 差 标准 误 差 为 0.057， 与 以 前 的 版 本 差别 很 大 ， 这 是 因为 对 因 变 量 进行 了 对 数 
运算 ) 。 

数据 科学 家 除了 提高 拟 合 优 度 之 外 ， 还 要 努力 减少 多 重 共 线性 。 多 元 回归 模型 中 两 
个 或 多 个 预测 变量 高 度 相 关 属 于 一 种 统计 现象 。 多 重 共 线性 的 存在 会 导致 对 每 个 预测 因 
子 估计 值 的 误解 。 比 方 说 ， 如 果 A 的 估计 值 是 5，B 的 估计 值 是 7， 并 且 A 和 B 是 相关 
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的 ， 那 么 估计 值 5 并 不 代表 A 对 因 变 量 的 真实 影响 。 估 计 值 是 受 A 和 B 共同 影响 的 一 个 
方差 。 如 果 读 者 有 兴趣 研究 每 个 维度 对 最 终结 果 的 影响 ， 消 除 多 重 共 线 性 是 必需 的 。 但 
是 ， 在 这 个 练习 中 ， 更 关注 预测 的 准确 性 。 

为 了 进一步 提高 预测 的 拟 合 优 度 或 准确 性 ， 需 要 研究 和 观察 交互 效应 〈interaction 
effects) 。 当 一 个 自 变 量 对 结果 的 影响 取决 于 另 一 个 自 变量 的 值 时 ， 就 会 发 生 交互 作用 
(Cinteraction) ， 也 就 是 说 ， 两 个 变量 同时 影响 另 一 个 变量 的 情况 不 可 以 相 加 。 


Y-fo*fy A+p2 BXB,(AB) +E 

有 些 情况 下 ， 两 个 自 变量 可 能 无 法 解析 很 多 方差 ， 但 是 将 两 个 变量 一 起 考虑 时 ， 就 
解释 了 大 量 的 方差 。 在 练习 中 ， 可 以 把 原料 属性 置 于 一 个 更 高 的 优先 级 上 用 于 交互 作用 
的 研究 。 还 有 更 复杂 的 技术 可 用 来 检测 自动 变量 交互 作用 《〈 但 详细 讨论 这 部 分 内 容 超 出 
了 本 书 的 范围 ) 。 现 在 ， 将 原料 质量 参数 视 为 一 个 组 合 。 然 后 从 9 个 原料 质量 参数 列表 
中 尝试 多 种 组 合 ， 并 (使 用 p 值 ) 检查 交互 作用 是 否 显著 ， 之 后 再 研究 提高 整体 模型 准 
确 度 Coverall model accuracy) 。 

以 下 结果 显示 了 各 种 组 合 的 最 佳 建 模 迭代 的 结果 。 已 经 考虑 了 多 个 原料 质量 参数 组 
合 之 间 的 交互 作用 ， 并 选择 了 给 出 最 佳 准确 度 的 迭代 。 一 些 不 显著 的 变量 已 被 淘汰 ， 少 
数 变量 仍 被 保留 下 来 。 残 差 标准 误差 是 最 小 的 ， 同 时 修正 后 的 R 平方 是 最 高 的 。 在 以 下 
展示 的 迭代 中 ， 己 考虑 了 原料 质量 参数 、 转 换 加 工时 间 、 基 础 原料 质量 参数 和 对 数 转换 
因 变 量 中 的 这 些 交 互 变量 的 组 合 。 

交互 变量 以 灰色 突出 显示 : 


call: 

1m(formula = log(Output QualityParameter2) ~ 
data$Quantity Deviation new + 
dataSAssemblyLine ID + 
data$Stagei PrevProduct 1 + 
(dataSstagei RM1 QParameter2) * (data$Stage3 RM1 QParameter2) + 
(dataSStagei RM1 QParameteri) * (data$Stage3 RMi QParameteri) + 
(dataSStagel RM2 QParameteri) * (data$Stage3 RM1 QParameter1) + 
log(data$Stagei RM1 QParameteri) + 
log(data$Stagei RM2 QParameter2) + 
log(data$Stagei RM2 QParameteri) + 
log(data$Stage3 RMi QParameteri) + 
log(data$Stage3 RMi QParameter2) + 
log(data$Stage3 RM2 QParameteri) + 
log(data$Stage3 RM3 QParameter2) + 
Tog(data$Stage3 RM3 QParameteri) + 
data$Stage3 ResourceName new + 
data$Stagei ProductChange Flag, data = data) 

Residuals: 

Min iQ Median 3Q Max 
-0.185280 -0.032139 20.000059 0.032401 0.271451 
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Coefficients: 

Estimate Std. Error t value Pr(»|t|) 
(intercept) .254e*02 5.903e-01 -3.818 0.000143 
data$SQuantity. Deviation newLow .018e-05 .344e-03 0.021 0.983444 
dataSQuantity Deviation newMedium .330e-03 .555e-03 -0.511 0.609177 
dataSAssemblyLine IDLine 2 3.542e-02 .526e-03 .825 1.31e-14 
data$Stagei PrevProduct iProduct 545 .102e-02 .768e-03 .584 5.15e-06 * 
dataSStagei RM1 QParameter2 .167e-02 .208e-02 .888 0.059389 
data$Stage3 RM1 QParameter2 .699e-01 .174e-01 .102 0.270942 
data$Stagei RM1 QParameteri .156e-03 .221e-03 .584 0.009915 
data$Stage3 RMi QParameteri .514e-01 .970e-02 .606 0.000327 
data$Stagei RM2 QParameteri .462e-03 .244e-02 .039 0.968556 
log(data$Stagei RM1 QParameteri) .974e*00 2.746e-00 .176 0.029816 
log(data$Stagei RM2 QParameter2) .538e-02 .863e-02 .983 0.002930 
log(data$Stagei RM2 QParameteri) .941e-01 4.670e-00 .106 0.915752 
log(data$Stage3 RM1 QParameteri) .536e*01 1.038e«01 .368 1.39e-05 
log(dataSStage3 RM1i QParameter2) .264e-02 2.279e-02 .871 0.061657 
log(data$Stage3 RM2 QParameteri) .579e-01 1.179e-01 1.340 0.180661 
log(data$Stage3 RM3 QParameter2) .974e-01 1.152e-01 .450 0.000585 
log(data$Stage3 RM3 QParameteri) .773e-02 1.389e-02 .875 1.27e-06 
data$Stage3 ResourceName newResource 108 .586e-02 .785e-03 .338 0.019594 
data$Stage3 ResourceName newResource 109 .830e-03 .640e-03 .029 0.303887 
data$Stagei ProductChange FlagYes -6.145e-03 .393e-03 0.961 0.336629 
data$Stagei RM1 QParameter2:data$Stage3 RM1 QParameter2 2.650e-01 1.240e-01 2.136 0.032905 
data$Stagei RM1 QParameteri:data$Stage3 RM1 QParameteri 8.360e-06 2.839e-06 .945 0.003311 
data$Stage3 RM1 QParameteri:data$Stagel RM2 QParameterl1 1.293e-05 1.497e-04 0.086 0.931177 


Signif. codes: O *'***' 0.001 '**' 0.01 '*' 0.05 *.' 0.1*"' 1 


Residual standard error: 0.05554 on 976 degrees of freedom 
Multiple R-squared: 0.55, Adjusted R-squared: 0.5394 
F-statistic: 51.87 on 23 and 976 DF, p-value: « 2.2e-16 


结果 有 所 改善 ， 但 还 没有 达到 理想 的 优秀 模型 。 至 少 还 有 70% 的 方差 需要 解释 ， 这 
样 才 能 把 这 个 模型 看 作 一 个 好 的 模型 〈 越 多 越 好 ) 。 这 里 看 到 显著 变量 的 数量 略 有 增加 ， 
整体 结果 得 到 了 相当 多 的 改善 ， 即 “〈 与 之 前 的 迭代 相 比 ) 残 差 标准 误差 已 经 减 小 ， 修 正 
后 的 有 平方 也 增加 了 。 虽 然 离 结果 还 很 远 ， 但 稍微 暂停 一 下 ， 先 来 理解 所 学 到 的 东西 。 


5. 要 审慎 思考 的 重点 


Q 现在 意识 到 ，4.2.3 节 的 结果 在 帮助 理解 自 变 量 和 因 变 量 之 间 的 关系 方面 ， 不 仅 
大 有 用 处 而 且 至 关 重 要 。 
一 些 不 显著 的 变量 通过 数学 方法 进行 转换 以 提高 显著 性 。 
Ae 个 范围 ， 它 有 助 于 解释 更 多 的 方差 。 

虽然 从 回归 练习 中 分 别 研究 了 结果 ， 但 是 没有 在 一 个 全 新 的 未 曾 见 过 的 数据 集 上 进 
行 验证 。 sr 因为 在 新 的 数据 集 上 对 模型 进行 评分 ， 可 能 无 法 得 到 相同 


DO 
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的 结 


果 。 若 是 如 此 ， 就 需要 重新 修改 模型 ， 以 获得 与 训练 数据 集 相似 且 更 好 的 模型 版 本 。 


为 了 验证 新 数据 集中 的 模型 ， 通 常 采 用 一 种 测试 和 训练 方法 ， 将 数据 随机 分 为 70 : 30、 


80 : 


f, 


20 或 90:10 的 训练 样本 和 测试 样本 。 前 面 早 已 将 整个 数据 集运 用 到 当前 练习 中 去 
因此 这 里 留 出 一 个 10% 的 样本 ， 接 着 重新 运行 相同 的 模型 进行 预测 。 
为 了 在 新 数据 上 检验 结果 ， 应 用 平均 绝对 百分比 误差 (Mean Absolute Percentage 


Error, MAPE) 并 计算 测试 集 的 了 平方 。 这 些 结果 将 帮助 评估 新 数据 集 的 模型 ， 


set.seed(600) 

fCreating a 10$ sample for test and 90$ Train 

(创建 一 个 10% 样本 用 于 测试 ， 一 个 90% 样本 用 于 训练 ) 

test index«-sample (1:nrow (data), floor (nrow (data) *0.1)) 
train«-data[-test index,] 

test«-data[test index,] 


#new fit :We fit the model 'new fit' on the train dataset using the same 
formula used in the previous iteration. Codes have been ignored here. 
Cnew_fit: 采 用 与 前 一 次 迭代 中 相同 的 公式 将 模型 new fit 在 训练 集中 进行 拟 合 。 此 处 忽略 
代码 ) 


#Define functions to calculate MAPE and R Squared 
(定义 函数 计算 MAPE 和 及 平方 ) 
mape <- function(y, yhat) 
return (mean (abs((Y - yhat)/y))) 
r squared«-function (y, yhat) 
return(1 - sum(abs(y-yhat)^2) /sum((y-mean (y) ) ^2)) 


fPredict the output from the Model 
(预测 模型 的 结果 》 
#Since, we performed a log operation on the dependent variable,We would 


need to take a exponential of the prediction to get the end Predcition 


(因为 对 因 变 量 实施 了 一 个 对 数 运算 ,还 需要 取 预 测 的 指数 以 获得 最 终 预测 结果 ) 
predicted«-exp (predict (new fit,test)) 


d$Calculate R Squared 
GHA RFH) 


SA E 预测 性 分 析 在 物 联网 中 的 应 用 “127。 


> r squared(test$Output QualityParameter2,predicted) 
[1] 0.4837209 


» mape(test$Output QualityParameter2,predicted) 
[1] 0.04446882 


从 结果 中 可 以 看 出 ， MAPE 约 为 4%， 测 试 集 上 整体 的 及 平方 值 为 0.48， 与 对 训练 样 
本 的 结果 相 比 稍微 有 些 偏差 ， 但 存在 的 差异 仍然 不 是 很 大 。 结 果 表 明 ， 它 们 几乎 与 预期 
的 结果 “〈 与 训练 数据 相 比 ) 是 同步 的 。 这 表明 该 模型 整体 上 具有 良好 的 泛 化 能 力 ， 从 而 
推断 该 模型 将 按照 任何 全 新 的 未 曾 见 过 的 数据 的 预期 良好 地 运行 。 可 是 ， 上 述 整 体 结果 
还 没有 足够 好 到 可 以 告诉 约翰 ， 我 们 已 经 帮 他 解决 了 问题 。 接 下 来 还 需要 取得 更 高 的 准 
确 度 和 更 低 的 预测 误差 ， 以 便 他 的 团队 能 够 从 结果 中 挖掘 出 有 价值 的 信息 。 

6， 应 该 注意 什么 

Q ”试图 用 相同 的 技术 进一步 改进 结果 需要 付出 十 分 艰辛 的 努力 。 可 以 改 用 更 强大 
的 算法 或 技术 来 获得 更 好 的 结果 。 
数据 转换 、 特 征 工程 以 及 研究 变量 间 的 交互 作用 可 以 进一步 提高 准确 度 。 

Q ”可 采用 别 的 替代 方法 用 以 改变 建 模 结果 ， 即 需要 对 预测 最 终结 果 〈 优 质 或 劣质 ) 

或 预测 每 个 单独 的 质量 参数 进行 评估 和 考虑 。 

7. 下 一 步 应 该 怎么 做 

目前 为 止 已 取得 成 果 〈 尽 管 是 逐渐 有 利 的 ) ， 但 在 总 体 水 平 上 ， 只 能 解释 整体 方差 
的 55% 左 右 。 这 也 只 是 比 随机 概率 (50%) 高 出 少许 。 还 有 多 种 选择 去 进一步 改进 结果 ， 
其 中 包括 可 继续 使 用 线性 回归 更 上 一 层 楼 ， 但 是 相应 地 需要 付出 无 比 艰辛 的 努力 。 为 了 
采用 更 加 快速 、 更 加 灵活 的 方法 获得 更 好 的 结果 ， 可 探索 选用 一 种 更 强大 的 技术 来 进行 
相同 的 预测 练习 。 新 技术 的 应 用 可 帮助 在 大 多 数 情况 下 获得 更 为 有 利 的 结果 ， 因 为 它 会 
揭示 出 一 些 在 线性 回归 中 可 能 不 是 直截了当 的 潜在 关系 。 因此， 为 了 让 结果 得 到 进一步 
的 改进 ， 将 针对 相同 的 用 例 采 用 另 一 种 新 技术 一 一 决策 树 。 


D 
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决策 树 是 数据 挖掘 中 常用 的 一 种 技术 ， 可 以 在 输入 的 一 些 值 〈 或 自 变量 ) 的 基础 上 
创建 一 个 模型 来 预测 一 个 目标 〈 或 因 变量 ) 的 值 。 可 以 采用 的 决策 树 算 法 各 种 各 样 ， 这 
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些 算法 变化 都 不 大 。 这 节 本 书 将 选择 一 个 非常 受 欢迎 的 决策 树 算法 ， 即 分 类 和 回归 树 
(Classification and Regression Trees, CART) 。 这 是 由 Leo Breiman®, Jerome Friedman? 
Richard Olshen? fl Charles Stone® F 1984 年 提出 的 一 个 总 括 术 语 , 它 是 指 决策 树 的 分 类 和 
回归 类 型 。 运 用 决策 树 可 以 预测 一 个 分 类 变量 或 连续 变量 。 根 据 因 变量 的 类 型 ，〈 对 于 
连续 型 的 结果 变量 ) 应 用 回归 树 或 〈 对 于 类 别 型 的 结果 ) 用 分 类 树 。CART 在 算法 的 内 
部 运作 中 有 一 个 细小 的 变异 。 后 续 将 在 当前 的 练习 中 采用 回归 树 算法 。 稍 后 ， 也 将 探究 
分 类 树 和 回归 树 之 间 的 差异 。 下 面 就 从 了 解决 策 树 的 细微 差别 开始 。 


4.3.1 了 解决 策 树 


接 下 来 仔细 地 研究 决策 树 。 

1. 什么 是 决策 树 

简 而 言 之 ， 决 策 树 是 一 种 数据 挖掘 算法 ， 用 于 根据 训练 样本 预测 分 类 结果 或 连续 结 
果 。 它 通过 创建 一 个 类 似 流程 图 的 结构 ， 其 中 每 个 内 部 节点 代表 对 一 个 属性 的 一 个 “ 测 
试 ”( 例 如 ， 抛 硬币 与 否 会 产生 硬币 为 正面 还 是 反面 的 一 个 结果 ) ， 每 个 分 支 表示 该 测 
试 的 结果 ， 并 且 每 个 叶 节 点 表示 一 个 类 标签 (在 计算 所 有 属性 之 后 做 出 的 决策 ) 。 从 根 
节点 到 叶 节 点 的 路 径 代 表 规则 。 

2. 决策 树 是 如 何 工作 的 

决策 树 实现 了 一 个 非常 简单 的 算法 。 图 4.1 为 决策 树 的 一 个 简单 可 视 化 图 。 

决策 树 的 工作 原理 是 ， 通 过 将 数据 从 根 节点 分 裂 成 越 来 越 小 的 子 集 ， 同 时 增 量 式 地 
构造 一 棵 与 之 相关 联 的 决策 树 。 最 终 构 造 出 来 的 是 一 棵 具有 根 节点 、 决 策 节点 和 叶 节点 
的 决策 树 ， 如 图 4.1 所 示 。 决 策 节点 创建 规则 ， 叶 节点 则 提供 结果 。 最 后 得 出 一 个 简单 而 
直观 的 流程 图 ， 在 脑海 中 即 可 将 这 个 流程 图 与 一 个 包含 有 许多 问题 以 及 基于 规则 的 答案 
的 列表 一 一 映射 。 


? 利 奥 ， 布 雷 曼 (1928 年 1 月 27 日 一 2005 年 7 月 5 ED. 是 加 利 福 尼 亚 大 学 伯克利 分 校 的 一 名 杰出 统计 学 家 。 他 曾 获得 过 许多 
荣誉 和 奖项 ， 同 时 也 是 美国 国家 科学 院 院士 。 他 最 要 的 贡献 主要 有 分 类 和 回归 树 、Bagging 方法 和 随机 森林 。 一 一 译 者 注 

o 杰 罗 姆 。 弗 里 德 曼 (1939 一 ): 美国 统计 学 家 、 顾 问 和 斯 坦 福 大 学 统计 学 教授 ， 因 为 对 统计 和 数据 挖掘 领域 的 贡献 而 闻名 。 
一 一 译 者 注 

O 理 查 德 。 奥 尔 森 〈 出 生年 月 不 详 ): 1966 年 12 月 获得 耶鲁 大 学 博士 学 位 。 他 与 已 故 的 利 奥 。 布 雷 曼 、 杰 罗 姆 。 弗 里 德 曼 
和 查尔斯 。 斯 通 合 著 了 《分 类 和 回归 树 》(Classification and Regression Trees) 一 书 。 一 一 译 者 注 

O 查尔斯 。 斯 通 〈 出 生年 月 不 详 ): 斯 坦 福 大 学 统计 学 博士 ， 现 为 加 利 福 尼 亚 大 学 伯克利 分 校 统计 系 教授 ， 主 要 研究 方向 是 
非 参 数 统计 模型 、 统 计 软件 。1984 年 与 上 述 作者 合 著 出 版 了 《分 类 和 回归 树 》。 一 一 译 者 注 
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3. 决策 树 有 哪些 不 同类 型 ? 
决策 树 的 类 型 各 种 各 样 。 它 们 在 解决 问题 的 方式 上 也 各 有 不 同 。 本 书 将 采用 最 流行 
最 广泛 使 用 的 CART 决策 树 ， 如 图 4.1 所 示 。 


图 4.1 
这 些 决 策 树 差别 不 大 。 在 大 多 数 情况 下 ， 一 种 技术 是 另 一 种 技术 的 更 新 版 本 。ID3 


(Iterative Dichotomiser 3) “是 C4.5 之 前 的 早期 版 本 之 一 ， 依 此 类 推 。 在 很 多 情况 下 ， 差 
异 主 要 在 于 增 量 更 新 和 改进 。 例 如 ， 较 早 的 版 本 不 能 处 理 数值 型 变量 ， 更 新 后 的 版 本 除 
了 支持 相同 的 功能 ， 还 进行 了 其 他 一 些 优化 改进 。 

4. 如 何 构 造 一 棵 决策 树 ， 决 策 树 是 如 何 工作 的 

整个 算法 可 以 用 5 个 简单 的 步骤 来 说 明 : 

(1) 选择 根 节点 。 

(Q0 将 数据 分 组 。 

(3) 创建 一 个 决策 节点 。 

(4) 将 数据 分 区 到 相应 的 组 中 。 

(5) 重复 ， 直 到 节点 大 小 > 阔 值 或 特征 = 空 。 

为 了 更 清楚 地 理解 算法 ， 举 一 个 浅显 易 懂 的 例子 。 比 如 ， 有 了 “着 装 标准 ”和 “性 
别 ” 的 数据 维度 之 后 ， 您 试图 预测 每 位 员工 的 平均 工作 时 间 。 图 4.2 将 此 例子 可 视 化 ， 以 
便 解 释 。 


9 迭代 二 分 器 3 代 。 一 一 译 者 注 
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m 个 观测 值 ESSET 


25 个 观测 值 |20 个 观测 值 |ss 个 观测 值 


ps AX 


图 4.2 


根 节点 是 一 个 “着 装 标准 ”的 特征 ， 粗 线 边框 方块 是 每 个 特征 的 组 /层级 。 虚 线 框 给 
出 了 相应 分 区 中 所 有 数据 维度 的 平均 工作 时 间 。 

假设 总 共有 100 个 观测 值 用 于 训练 。 在 每 个 节点 中 设置 了 30 个 数据 点 或 更 多 的 阔 值 
以 进一步 分 割 节 点 。 因 此 ， 当 节点 中 含有 30 个 或 更 少数 据点 ， 或 者 特征 〈 自 变量 ) 为 空 
时 ， 分 区 停止 。 通 过 算法 〈 将 在 后 面 详细 讨论 ) 选择 根 节点 ( 即 着 装 标准 ) ， 将 数据 划 
分 为 相应 的 组 别 。 所 以 分 别 有 25 个 “休闲 ”、20 个 “商务 休闲 ”和 55 个 “正装 ”。 一 
且 一 个 特征 被 分 配 并 且 数 据 被 分 区 ， 那 么 就 继续 分 割 相应 的 可 分 割 的 组 。 在 本 例 中 , “ 休 
闲 ” 和 “商务 休闲 ”<30 个 观察 值 ， 因 此 不 再 考虑 进一步 分 割 。“ 正 装 ” 节 点 大 小 > 30， 
因此 在 “正装 ”节点 下 面 设置 下 一 个 特征 “性 别 ”。 这 55 个 观测 值 进一步 分 为 “男性 ” 
和 “女性 ”。 这 个 过 程 一 直 持续 到 特征 为 空 或 节点 大 小 小 于 预 设 的 阔 值 。 每 个 粗 线 边框 
都 是 计算 结果 的 终端 节点 。 在 回归 树 中 ， 由 于 结果 是 连续 型 的 ， 结 果 是 各 终端 节点 中 所 
有 数据 点 的 平均 数 。 平 均 工 作 时 间 的 一 个 分 区 以 虚线 边框 显示 。 在 前 面 的 例子 中 ， 假 设 
有 一 个 员工 ， 其 性 别 为 “ 男 ”，“ 着 装 标准 ”为 “休闲 ”， 那 么 如 果 遍 历 树 ， 就 会 发 现 
该 员工 的 平均 工作 时 间 是 12。 如 果 “ 着 装 标准 ”=“ 正 装 ”， 性 别 =“ 女 性 ”， 那 么 平均 


À: 
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工作 时 间 = 8。 上 述 就 是 如 同 构造 了 一 棵 决策 树 ， 并 预测 最 终结 果 的 一 个 过 程 。 对 于 决策 

树 是 如 何 工作 的 ， 还 需要 澄清 几 个 问题 。 

此 时 浮现 在 脑海 中 的 几 个 问题 如 下 : 

口 ” 如 何 选择 根 节点 ? 

ü ”决策 节点 是 如 何 排序 /选择 的 ? 

Q ”决策 树 如 何 处 理 连续 变量 ? 

Q ”分 类 和 回归 过 程 有 什么 不 同 ? 
这 些 问 题 的 答案 将 帮助 更 详细 地 了 解决 策 树 的 整个 过 程 。 下 面 将 逐个 去 解决 这 些 问题 。 
5. 如何 选择 根 节点 
计算 回归 树 和 分 类 树 中 根 节点 的 算法 是 不 一 样 的 。 对 于 回归 树 ， 算 法 计算 关于 因 变 

量 的 特征 的 标准 差 减少 〈Standard Deviation Reduction; SDR) 。 请 看 下 面 的 例子 。 比 如 

采用 以 下 数据 〈 见 表 4.1) 作为 算法 的 训练 数据 。 


表 4.1 训练 数据 
序 列 号 SERE 性 A 工作 时 间 
1 正装 男 10 
2 商务 休闲 女 11 
3 休闲 男 12 
4 正装 男 9 
5 商务 休闲 女 14 
6 休闲 男 9 
100 休闲 男 15 


这 里 有 两 个 特征 和 一 个 连续 结果 《〈 即 工作 时 间 ) 。 
标准 差 减少 (SDR) 计算 如 下 : 
(SDR) = Standard Deviation( 结 果 )-Standard Deviation( 结 果 , 特 征 ) 

计算 一 个 单数 值 型 变量 的 标准 差 很 简单 。 每 组 的 概率 乘 以 每 组 的 标准 差 后 ， 将 这 些 
乘积 相 加 得 出 的 总 和 即 为 两 个 变量 的 标准 差 。 

假设 计算 标准 差 ， 即 Sd( 着 装 标准 ,工作 时 间 ): 

Sd( 着 装 标准 ,工作 时 间 )=P( 正 装 )* Sd( 正 装 )+ P( 休 闲 )* Sd( 休 闲 )+ 
P( 商 务 休 闲 )* P( 商 务 休 闲 ) 
假设 Sd( 工 作 时 间 )= 15， 各 组 着 装 标准 的 频率 计数 和 各 自 的 标准 差 如 表 4.2 所 示 。 
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X42 频率 计数 和 标准 差 表 
着 装 标准 工作 时 间 标 准 差 x 5 


商务 休闲 


总 和 


那么 ，Sd (着 装 标准 ， 工 作 时 间 ) =P (正装 ) 。Sd (正装 ) +P (休闲 )，。Sd k 
W) +P (商务 休闲 ) * P (商务 休闲 ) = (55/100) x1.4+ (20/100) x1.9+ (25/100) x 2.8 
因此 ，Sd (着 装 标准 ， 工 作 时 间 ) = 1.85。 

这 时 计算 SDR 易如反掌: 

(SDR) -Standard Deviation (结果 ) -Standard Deviation (结果 ， 特 征 ) 

=15-1.85 

SDR= 13.15 

同样 ， 其 他 特征 的 SDR 也 会 计算 出 来 ， 并 且 选 择 SDR 最 大 的 那个 特征 作为 根 节点 。 

6. 决策 节点 是 如 何 排序 /选择 的 

一 旦 选择 了 根 节点 并 且 数 据 在 其 组 中 被 分 区 ， 则 下 一 个 特征 就 被 分 放 到 根 节点 的 合 
格 组 别 下 面 。 合 格 组 别 是 根据 节点 大 小 阔 值 计算 的 。 所 选 的 特征 是 具有 最 高 SDR 的 下 一 
个 特征 。 如 果 数 据点 的 个 数 少 于 阔 值 ， 则 该 节点 被 终止 。 图 4.3 显示 了 基于 SDR 的 一 些 
特征 的 一 个 流程 图 。 

7. 决策 树 如 何 处 理 连 续 变量 

连续 变量 是 一 个 特例 。 理 想 情 况 下 ， 决 策 树 只 适用 于 分 类 特征 ， 但 是 将 连续 特征 转 
换 为 分 类 特征 后 ， 即 可 添加 到 决策 树 中 。 这 可 通过 一 种 分 箱 (binning) 的 算法 实现 ， 并 
且 能 在 所 使 用 的 RR 包 中 自动 完成 。 比 如 ， 举 一 个 年 龄 维度 的 例子 ， 很 容易 就 能 理解 分 箱 。 
年 龄 具有 0 到 100 之 间 的 任何 值 (假设 ) 。 可 轻而易举 就 可 把 年 龄 维度 分 为 0—18 岁 、 
19—35 2. 36—65 岁 和 65 岁 以 上 的 5 个 分 箱 或 者 组 别 。 其 他 数值 型 特征 也 可 依 此 实现 。 

8. 分 类 和 回归 过 程 有 什么 不 同 

分 类 树 和 回归 树 算法 的 主要 区 别 是 用 来 选择 根 节点 和 排序 决策 节点 的 方式 。 在 回归 
树 中 ， 使 用 的 是 SDR， 而 在 分 类 树 中 ， 则 采用 焙 。 同 样 的 ， 回 归 树 节点 的 停止 规则 是 有 
限 数目 的 数据 点 。 而 在 分 类 树 中 ， 停 止 规则 是 结果 的 同 质 性 ， 这 意味 着 分 区 中 的 所 有 数 
据点 应 该 具有 相同 的 结果 。 本 书 将 在 第 5 章 探 讨 更 多 关于 粹 和 分 类 树 的 工作 原理 。 
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E 员工 平均 工作 时 间 
| 100 LI etl 


Amo 商务 休闲 E$ 


25 个 观测 值 。 | 20 个 观测 值 。 “| 55 个 观测 值 


性 别 


AC : x 


5 x 
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32 个 观测 值 |23 人 观测 全 


4.3.2 用 决策 树 进行 预测 建 模 


现在 已 对 决策 树 一 清二 楚 了 ， 接 着 继续 采用 新 算法 解决 同样 的 问题 〈 即 在 前 面 章 节 


中 已 经 解决 过 的 问题 ) . R 语言 中 有 很 多 可 用 的 软件) 包 可 帮助 构造 决策 树 。 下 面 选 


用 


度 。 


的 是 RPART & (CART 的 扩展 ) 。 


1 如何 预测 建 模 


与 线性 回归 不 同 ，R 语言 中 的 决策 树 执行 不 会 提供 明确 的 结果 ， 即 模型 预测 的 准确 
程度 。 需 要 测试 并 自行 找到 结果 。 因 此 ， 可 用 MAPE 入 平方 值 来 探 清 模 型 构建 的 准确 


而 且 ， 决 策 树 的 最 大 优点 是 能 够 可 视 化 构造 好 的 树 。 对 于 外 行人 而 


言 ，( 可 视 化 让 ) 


理解 结果 变 得 非常 简单 和 十 分 直观 。 首 先 用 线性 回归 中 使 用 的 那些 特征 的 初始 列表 来 实 
现 一 个 简单 的 迭代 。 决 策 树 无 法 处 理 交 互 变量 (虽然 可 以 间接 创建 一 个 新 的 交互 变量 并 


添加 到 决策 树 模型 中 ， 但 解释 起 来 并 不 直观 明了 ) 。 
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fBuilding a Decision Tree in R using rpart package 
(用 rpart 包 在 R 语 言 中 构造 一 棵 决策 树 ) 

library (rpart) 

fit«-rpart (Output QualityParameter2- 


#The Production Quantity deviation feature 
(生产 量 偏差 特征 》 


Quantity Deviation new + 


#The Production Quantity deviation feature 
(生产 量 偏差 特征 ) 
Stagel PrevProduct 1 + 


#Raw Material Quality Parameters 

(原料 质量 参数 ) 

Stagel RM1 QParameter2 + 
Stagel RM1 QParameterl1 
Stagel RM2 QParameter2 
Stagel RM2 QParameterl 
Stage3 RM1 QParameterl 
Stage3 RM1 QParameter2 
Stage3 RM2 QParameterl 
Stage3 RM3 QParameter2 
S 


+ 二 十 二 十 二 二 二 + 


tage3 RM3 QParameterl 


#Machine/Resources used in a Stage 
(一 个 阶段 中 使 用 的 机 器 /资源 ) 
Stage3 ResourceName new + 


Stagel ProductChange Flag 


b 
data-train,control-rpart.control (minsplit-20,cp-0.1) 


) 


#Predicting the values from the newly created model 
(从 新 建 模型 中 预测 值 ) 
predicted«-predict (fit, test) 
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mape (test$Output QualityParameter2,predicted) 
[1] 0.0449977 


r squared(test$Output QualityParameter2,predicted) 
[1] 0.4308113 


O za: 

rpart() à vp 45 5 C48 94 ATELE 293, ZL minsplit = 20， 这 样 如 果 节 点 具 
有 小 于 或 等 于 20 个 训练 样本 ， 则 节点 不 会 被 进一步 分 割 。 类 似 地 ，cp 被 定义 为 复杂 性 参 
4k ( complexity parameter, cp) 。 如 果 一 个 cp 因子 不 能 降低 整体 的 失 拟 (lack of fit) ， 
就 不 要 尝试 对 节点 做 任何 分 割 。 例 如 ， 对 于 回归 树 ， 这 意味 着 整体 的 R 平方 在 每 一 步 都 
必须 增加 cp。 这 个 参数 的 主要 作用 是 通过 修剪 显然 不 值得 的 分 割 来 节省 计算 时 间 。 


如 果 观 察 结果 ， 可 清楚 地 看 到 结果 实际 上 比 之 前 的 模型 恶化 了 一 一 测试 集 的 MAPE 
和 整体 了 平方 略微 下 降 。 

但 是 ， 原 因 究 竟 何在 ? 

下 面 将 模型 构造 的 决策 树 可 视 化 ， 如 图 4.4 所 示 。 

fInstalling the required packages 


(安装 所 需 的 软件 包 ) 
install.packages ('rattle') 


install.packages ('rpart.plot') 


install.packages ('RColorBrewer!') 


fLoading the installed packages 
(加 载 已 安装 的 软件 包 ) 

library (rattle) 

library (rpart.plot) 


library (RColorBrewer) 


#Plotting the Regression Tree 

(绘制 回归 树 ) 

fancyRpartPlot (fit) 

诚 如 所 见 ， 决 策 树 在 所 有 参数 中 只 选择 了 两 个 不 同 的 节点 ， 即 Stage RM2 
QParameterl 〈 阶 段 3 原料 2 质量 参数 1) 和 Stage3 RMI QParameterl (阶段 3 原料 1 质 
量 参数 1) 。 因 此 ， 该 算法 在 内 部 放弃 了 其 他 特征 ， 因 为 它 无 法 找到 一 个 特征 和 一 个 最 优 


"poe 
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分 割 点 ， 而 在 那 对 解释 整体 方差 也 能 增加 价值 。 


2s j- Stage3 RM2 QParameter1 < 556 


Stage3 RM1 QParameter1 < 205 Stage3 RM1 QParameter1 >= 222 


Stage3 RM2 QParameter1 >= 524 


[s) [9] 
en 
396 44' n-55 6 


图 4.4 


2. 如何 改进 结果 


如 果 打 算 微调 


回归 树 ， 可 采用 参数 如 cp、minsplit、maxdepth、minbucket 等 。 接 下 


来 试 着 调整 cp 参数 。 理 想 情况 下 ，cp 参数 是 决定 是 否 将 一 个 特定 特征 添加 到 决策 树 中 的 


闵 值 。 特 征 添加 后 


， 该 算法 在 内 部 执行 迭代 以 找到 R 平方 已 经 改进 的 量 。 如 果 该 值 不 显 


著 ， 那 么 继续 往 前 。 可 能 有 人 想 知道 ， 如 果 将 一 个 特征 添加 到 决策 树 中 ， 就 可 能 会 给 R 平 
方 增加 一 点 点 改进 ， 那 么 为 什么 要 忽略 它 呢 ? 难道 多 个 小 小 的 增 量 不 会 变 得 更 有 价值 吗 ? 

这 正 是 需要 理解 过 拟 合 概念 的 地 方 。 过 拟 合 指 的 是 ， 与 一 个 简单 模型 相 比 ， 模 型 与 
训练 数据 完美 匹配 的 情况 ， 但 是 在 测试 数据 上 却 一 败 涂 地 。 当 模型 不 能 泛 化 模式 时 ， 就 


会 出 现 这 种 情况 。 
下 面 就 来 探讨 这 一 
考虑 构造 决策 树 时 


如 果 忽 略 数 据 中 的 噪声 ， 即 对 模型 泛 化 ， 将 会 造成 极其 复杂 的 规则 。 


点 。 重 新 运行 决策 树 模型 的 迭代 ， 并 将 cp 参数 值 设置 为 0.001。 现 在 


由 算法 舍弃 的 特征 。 


#Executing another Decision Tree Iteration 
(执行 男 一 个 决策 树 迭 代 》 
library (rpart) 


fit<-rpart (Output QualityParameter2~ 
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#The Production Quantity deviation feature 
〈 生 产量 偏差 特征 ) 


Quantity Deviation new 十 


#The Production Quantity deviation feature 
(生产 量 偏差 特征 ) 
Stagel PrevProduct 1 + 


#Raw Material Quality Parameters 
(原料 质量 参数 ) 

Stagel RM1 QParameter2 + 

tagel RM1 QParameterl 
tagel RM2 QParameter2 
tagel RM2 QParameterl 
tage3 RM1 QParameterl 
tage3 RM1 QParameter2 
tage3 RM2 QParameterl 


S 
S 
S 
S 
S 
S 
Stage3 RM3 QParameter2 
S 


+++++ + + + 


tage3 RM3 QParameterl 


#Machine/Resources used in a Stage 
(一 个 阶段 中 使 用 的 机 器 /资源 ) 

Stage3 ResourceName new + 

Stagel ProductChange Flag 


, 


data-train,control-rpart.control (minsplit-20,cp-0.001) 


) 
predicted«-predict (fit,test) 


mape (test$Output QualityParameter2,predicted) 
[1] 0.04104942 


r squared(test$Output QualityParameter2,predicted) 
[1] 0.53973 
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R FAM MAPE 似乎 发 生 了 细小 的 改进 ， 但 这 是 真 的 吗 ? 
接 下 来 观察 由 算法 构造 的 决策 树 ， 如 图 4.5 所 示 。 


> fancyRpartPlot (fit) 


ic 
eoo eee eoo cce ó 


图 4.5 


不 出 所 料 ， 该 算法 添加 了 几乎 所 有 可 用 的 特征 ， 然 而 几乎 看 不 到 任何 东西 。 结 果 
示 与 前 一 次 迭代 相 比 有 所 改善 ， 但 这 纯 属 偶然 。 如 果 考虑 另外 90%:10% 的 随机 样本 进行 
训练 和 测试 ， 可 能 得 到 完全 相反 的 结果 。 下 面 的 代码 执行 十 折 交 叉 验 证 练习 ， 以 验证 在 
迭代 中 得 到 的 结果 是 否 更 好 或 纯 属 偶然 。 

一 个 十 折 交 叉 验证 练习 基本 上 是 一 个 过 程 ， 即 将 数据 划分 为 10 个 相等 的 分 区 ， 然 后 
使 用 9 个 分 区 ， 即 90% 进 行 训练 ， 而 剩 下 的 分 区 ， 即 10% 进 行 测试 。 该 过 程 重复 10 次 ， 


每 次 选择 不 同 的 分 
是 任意 数字 ， 例 如 


区 进行 测试 。 如 果 观 察 到 虚假 结果 ， 可 以 应 用 k 折 交 叉 验 证 练习 Ck 


10) 来 验证 相同 的 结果 


#Creating 10 fold cross validation sample 


(创建 十 折 交 叉 验证 样本 ) 


第 4 章 ”预测 性 分 析 在 物 联网 中 的 应 用 


k-10 #Defining the number of partitions 


#Creating an identifier to assign a partition index 
(创建 一 个 标识 符 来 分 配 一 个 分 区 索引 ) 

set.seed(100) 

data$id «- sample(1:k, nrow(data), replace - TRUE) 


list <= 1:k 


results«-vector() 
for W im LK) 
#remove rows with id i from dataframe to create training set 
(从 数据 框 中 删除 含有 id“i” 的 行 以 创建 训练 集 ) 
#select rows with id i to create test set 
(选择 含有 id“i” 的 行 以 创建 测试 集 ) 
trainingset <- subset(data, id $in$ list[-i]) 
testset «- subset(data, id $in$ c(i)) 


fit«-rpart (Output QualityParameter2- 
#The Production Quantity deviation feature 
(生产 量 偏差 特征 ) 


Quantity Deviation new 十 


#The Production Quantity deviation feature 
(生产 量 偏差 特征 ) 
Stagel PrevProduct 1 + 


#Raw Material Quality Parameters 
(原料 质量 参数 ) 

Stagel RM1 QParameter2 
Stagel RM1 QParameter1 
Stagel RM2 QParameter2 
Stagel RM2 QParameter1 
Stage3 RM1 QParameterl 
Stage3 RM1 QParameter2 


+ + + + + + + 


Stage3 RM2 QParameterl1 
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Stage3 RM3 QParameter2 + 

Stage3 RM3 QParameterl + 

fMachine/Resources used in a Stage 

(一 个 阶段 中 使 用 的 机 器 /资源 ) 

Stage3 ResourceName new + 

Stagel ProductChange Flag, 
data-trainingset,control-rpart.control (minsplit=20, cp=0.001) 


) 


yhat<-predict (fit,newdata = testset) 
y«-testset$Output QualityParameter2 
a«-r squared(y, yhat) 


fAppending the R Squared results to a vector 
(将 RR 平方 结果 附加 给 一 个 向 量 》 


results<-as.vector(c(results,a)) 


mean (results) 
[1] 0.4526883 


min(results) 
[1] 0.1588772 


max (results) 
[1] 0.6123546 


仔细 观察 结果 ， 在 对 模型 进行 十 折 交 叉 验 证 之 后 ， 可 以 清楚 地 看 到 结果 发 生 了 巨大 
的 变化 。 整 体 R 平方 低 至 0.15 或 者 高 达 0.61。 所 以 需要 一 个 更 稳定 的 cp 值 。 
幸运 的 是 ， 模 型 输出 提供 了 一 个 CP 表 作为 其 参数 之 一 : 


head (fit$cptable) 
CP nsplit rel error xerror xstd 
0.471497076 0 1.0000000 1.0011024 0.05081692 


0.5285029 0.5309135 0.03556166 
0.4968618 0.5209064 0.03475611 
0.4815412 0.5108439 0.03451988 


0.015820550 
0.015320589 
0.010957717 


Ae W N H 
e mw H 
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5 0.008642251 6 0.4596258 0.5081714 0.03460857 
6 0.007985705 7 0.4509835 0.4938715 0.03388218 


上 述 cptable 展示 了 各 种 内 部 迭代 的 结果 ， 以 及 获得 的 cp 值 和 相应 的 误差 项 。 可 从 中 
挑选 出 具有 最 小 误差 的 cp 值 ， 然 后 修剪 决策 树 。 修 剪 指 的 是 从 决策 树 中 删除 特定 分 支 或 
节点 以 重建 优化 决策 树 的 一 个 过 程 。 我 们 知道 ， 如 果 在 树 中 的 节点 〈 分 支 ) 过 多 ， 过 拟 
合 以 及 获得 较 差 结果 的 可 能 性 会 很 高 。 因 此 ， 选 择 cp 的 最 优 值 ， 通 过 修剪 不 够 重要 的 节 
点 来 重新 构造 决策 树 ， 可 以 在 一 定 程度 上 克服 过 拟 合 。 下 面 就 来 试 试看 : 

#Find the CP parameter value with the least error 

( 找 出 具有 最 小 误差 的 cP 参数 值 ) 

best cp<-fit$cptable[which.min(fit$cptablel[,"xerror"]),"CP"] 


best cp 
[1] 0.004459267 


#Prune the exisitng model 
(修剪 现 有 的 模型 ) 


new fit«-prune(fit,cp-best cp) 


#Predict using the new model 
(用 新 模型 预测 》 

yhat<-predict (new fit,newdata = testset) 
y<-testset$0utput QualityParameter2 


r squared(y, yhat) 
0.5461565 


mape (y, yhat) 
0.04234978 


同样 ， 看 到 比 前 面 的 迭代 更 好 的 R 平方 以 及 和 前 面 几乎 相似 的 MAPE， 但 是 这 个 结 
果 依 然 让 人 满意 吗 ? 

答案 为 否定 ， 因 为 所 取得 的 结果 几乎 与 前 面 线性 回归 的 一 模 一 样 。 结 果 没有 显示 出 
任何 显著 的 改进 。 

3. 接 下 来 尝试 另 一 种 建 模 技术 希望 可 以 给 出 更 强大 的 结果 

极 可 能 可 以 做 到 ， 但 是 须 稍 做 等 待 。 有 许多 用 例 可 以 通过 改变 建 模 技 术 来 找到 最 好 
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的 结果 ， 而 不 是 通过 调整 来 改进 现 有 的 结果 。 当 然 ， 这 并 不 意味 着 不 停 地 更 换 建 模 技术 ， 
而 不 考虑 现 有 模型 如 何 改进 以 及 认真 思考 为 何 失败 的 情况 。 但 是 ， 在 某 些 情 况 下 ， 可 以 
通过 尝试 一 种 新 技术 而 不 是 彻底 地 调整 相同 的 现 有 模型 ， 以 更 快 地 获得 更 好 的 结果 。 前 
面 在 用 例 中 已 经 这 样 做 了 。 用 一 个 简单 的 线性 回归 技术 开始 解决 预测 问题 ， 经 过 几 次 实 
验 且 结果 不 佳 的 情况 下 ， 继 续 研究 决策 树 并 进一步 进行 实验 。 但 还 没有 获得 满意 的 效果 ， 
接 下 来 呢 ? 是 否 要 试 试 另 一 种 更 强大 的 技术 ， 它 可 能 会 带 来 更 好 的 结果 吗 ? 

如 前 所 述 ， 答 案 是 肯定 的 ， 可 以 做 到 ， 但 是 不 妨 先 等 一 等 。 与 其 尝试 一 种 新 的 机 器 
学 习 技 巧 ， 或 者 是 竭尽 所 能 地 调整 现 有 的 模型 ， 为 什么 不 去 尝试 一 些 不 同 的 东西 呢 ? 

回顾 约翰 提出 的 要 求 ， 他 曾经 提 到 ， 他 的 团队 需要 一 个 能 够 在 生产 过 程 之 前 预测 结 
果 的 解决 方案 ， 以 便 他 们 采取 相应 的 纠正 措施 。 有 4 个 成 品质 量 参数 和 由 此 产生 的 一 个 
洗涤 剂 质量 结果 (这 个 结果 通过 算法 对 4 个 成 品 产生 计算 得 出 ) 一 一 即 Good (良品 ) 或 
Bad (不 良品 ) 。 可 以 尝试 预测 一 个 分 类 结果 〈 即 洗涤 剂 质量 ) ， 而 非 预测 一 个 数值 型 结 
果 《〈 即 成 品质 量 参数 2) 。 

整体 练习 会 略 有 不 同 ， 因 为 会 预测 一 个 分 类 结果 ， 而 不 是 一 个 数值 型 或 连续 型 的 结 
果 。 下 面 先 暂停 尝试 采用 更 强大 的 机 器 学 习 技术 来 预测 一 个 数值 型 结果 的 实验 (但 稍 后 
会 在 下 一 章 中 试 一 试 ) 。 这 里 首先 尝试 去 创建 一 个 简单 的 模型 来 预测 一 个 分 类 结果 。 


44 Logistic 回归 一 一 预测 一 个 分 类 结果 


此 时 把 重点 转移 到 建立 一 个 预测 模型 ， 接 下 来 将 采取 不 同 的 步骤 来 完成 。 开 始 时 ， 
我 方 团队 想 解决 一 个 能 够 预测 一 个 连续 结果 的 预测 问题 ， 但 是 却 没有 取得 令 人 满意 的 结 
果 。 约 翰 的 团队 需要 一 个 解决 方案 可 让 他 们 利用 来 预测 正在 生产 的 洗涤 剂 的 最 终 质 量 。 
可 以 通过 多 种 方法 来 实现 这 一 点 。 第 一 个 方法 是 预测 最 关键 的 成 品质 量 参数 ， 第 二 个 则 
是 预测 实际 的 最 终结 果 ， 即 良品 或 不 良品 。 这 两 种 方法 各 有 利 次 。 预 测 连 续 结果 ， 即 成 
品质 量 参数 2, 实际 上 让 我 们 先睹为快 了 解 实际 量化 偏差 偏离 基准 的 程度 ， 比 如 低 于 或 高 
于 60%。 这 种 清晰 了 然 的 信息 有 助 于 技术 人 员 采 取 更 加 准确 的 纠正 措施 。 

另 一 方面 ， 预 测 分 类 结果 〈 即 良品 /不 良品 ) 也 便于 解释 。 即 使 没有 任何 基准 比较 或 
相对 度量 ， 一 个 外 行人 也 能 轻而易举 地 解释 结果 。 但 是 ， 同 时 也 没有 一 个 量化 质量 好 坏 
的 量化 标准 。 为 了 构建 一 个 二 元 分 类 结果 的 预测 模型 ， 选 择 一 个 非常 简单 和 流行 的 算法 ， 
即 Logistic 回归 。 
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4.4.1 什么 是 Logistic 回归 


Logistic 回归 是 一 种 统计 技术 , 用 于 构建 具有 二 分 类 结果 或 二 元 结果 的 类 别 型 因 变 量 
(在 本 文 的 用 例 中 ， 因 变量 为 洗涤 剂 质量 ) 。 类 似 于 线性 回归 ，Logistic 回归 模型 是 一 个 
因 变量 和 一 个 或 多 个 自 变量 之 间 的 关系 。Logistic 回归 应 用 一 个 Logistic 函数 估计 概率 ， 
衡量 类 别 型 因 变 量 与 一 个 或 多 个 自 变量 之 间 的 关系 ，Logistic 函数 是 一 种 累积 的 Logistic 
分 布 。Logistic 回归 还 有 其 他 变 体 ， 这 些 变 体 侧重 采用 3 个 或 3 个 以 上 的 层级 ， 如 义 、Y 
和 Z 等 对 一 个 分 类 变量 进行 建 模 。 现 在 把 重点 放 在 对 二 元 结果 〈 即 良品 或 不 良品 ) 的 建 
模 上 。 

不 同 于 线性 回归 ，Logistic 回归 对 比值 比 的 对 数 或 事件 发 生 概率 的 对 数 进行 建 模 。 下 
面 进一步 理解 这 一 点 。 这 一 切 都 始 于 概率 的 概念 。 假 设 一 些 事件 成 功 的 概率 是 0.8。 那 么 
失败 的 概率 是 1 - 0.8 = 02. 成 功 的 机 率 被 定义 为 成 功 概率 与 失败 概率 的 比率 。 在 本 例 中 
成 功 的 机 率 是 0.8 /0.2 = 4。 这 意味 着 成 功 的 机 率 是 4 : 1。 如 果 成 功 的 概率 是 0.5, 即 50% 
的 可 能 性 ， 那 么 成 功 的 机 率 是 1 : 1。 

Logistic 回归 方程 可 以 定义 如 下 : 


n E) A+A eate t 


wn 2 是 比值 比 的 对 数 。 
P 
为 了 预测 事件 发 生 的 概率 ， 可 以 进一步 求解 上 述 方程 如 下 


qe a) 
P=, OA hi) 

讨论 数学 背景 和 方程 的 推导 超出 了 本 书 的 范围 。 在 开始 Logistic 回归 之 前 ， 先 暂缓 一 
缓 ， 试 着 思考 一 些 重要 的 事情 。 本 节 开篇 中 提 到 ， 不 能 采用 线性 回归 来 对 分 类 变量 建 模 ， 
但 是 这 为 什么 呢 ? 如 果 把 结果 编码 ，! 代表 良品 ，0 代表 不 良品 ， 结 果 会 怎么 样 ? 

假设 根据 球 队 属性 来 预测 篮球 队 获 胜 的 可 能 性 。 在 这 个 简化 了 的 例子 中 ， 对 是 否 
获胜 有 3 种 可 能 的 判断 ， 是 、 否 和 可 能 。 可 考虑 将 这 些 值 编码 为 定量 响应 变量 Y， 如 下 
所 示 。 


l: 
2: 
3: 可 能 
采用 这 种 编码 ， 可 以 把 线性 回归 作为 一 个 包含 了 预测 因子 Xi, ns X, 的 函数 用 来 预 
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测 Y。 然 而 ， 这 种 编码 技术 的 最 大 问题 是 解释 结果 的 顺序 。 对 于 处 在 “是 ”和 “可 能 ” 
之 间 的 “ 否 ”， 模 型 会 推断 出 “是 ”和 “ 否 ”之 间 的 区 别 与 “ 否 ” 和 “可 能 ”之 间 的 区 
别 是 相同 的 ， 而 这 不 是 我 们 可 以 确定 的 。 此 外 ， 如 果 “ 是 ”“ 否 ”“ 可 能 ”的 顺序 颠倒 
或 者 改变 ， 则 将 完全 改变 模型 的 解释 ， 在 这 种 情况 下 ， 对 分 类 变量 应 用 线性 回归 是 没有 
意义 的 。 

另 一 方面 ， 对 于 本 用 例 ， 可 用 一 个 二 进 制 标志 将 前 面 的 参数 抽象 出 来 ， 表示 0 到 1 
之 间 的 预测 值 可 以 用 作 概 率 的 一 个 代理 。 然 而 这 种 情况 也 不 会 成 立 ， 因 为 在 0 和 1 范围 
之 外 会 有 其 他 预测 ， 例 如 -5， 这 样 就 会 使 整个 解释 变 得 异常 困难 。 


4.4.2 Logistic 回归 是 如 何 工作 的 


搬 开 数学 的 复杂 性 ， 现 来 探讨 一 个 简单 的 话题 一 一 最 大 似 然 。 在 统计 学 中 ， 最 大 似 
然 估计 Cmaximum-likelihood estimation MLE) 是 一 种 应 用 给 定数 据 估计 统计 模型 的 参 
数 的 方法 。 概 而 述 之 ， 可 以 说 ， 对 于 一 组 固定 的 数据 点 和 统计 模型 ， 最 大 似 然 法 选择 使 
似 然 函数 最 大 化 的 一 组 模型 参数 的 值 ， 换 言 之 ， 它 最 大 化 了 所 选 模型 与 观测 数据 的 “一 
致 性 ”。 一 旦 确定 了 模型 的 参数 ， 就 可 将 这 些 值 代 入 方程 中 ， 并 立即 得 到 预测 结果 。MLE 
的 过 程 是 迭代 的 。 

接 下 来 , 通过 构建 Logistic 回归 模型 开始 分 析 。 下 面 将 继续 探讨 新 的 主题 和 未 知 的 结 
果 。 为 了 对 现 有 数据 进行 Logistic 回归 ， 采 用 R 语言 统计 数据 包 中 可 用 的 glm0 函 数 。 首 
先 ， 使 用 在 上 一 个 练习 中 用 过 的 同一 组 预测 因子 : 


fit«-glm(Detergent Quality~ 


#The Production Quantity deviation feature 
〈 生 产量 偏差 特征 ) 


Quantity Deviation new 十 


#The Production Quantity deviation feature 
〈 生 产量 偏差 特征 ) 


Stagel PrevProduct 1 + 


#Raw Material Quality Parameters 
(原料 质量 参数 ) 

Stagel RM1 QParameter2 + 
Stagel RM1 QParameterl + 
Stagel RM2 QParameter2 + 
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Stagel RM2 QParameterl + 
Stage3 RM1 QParameterl + 


#Machine/Resources used in a Stage 
〈 一 个 阶段 中 的 机 器 /资源 ) 

Stagel ProductChange Flag, 
data-train, 

family = "binomial" 


) 


family ="binomial" 命 令 告 诉 R 语言 应 用 glm0) 函 数 来 拟 合 Logistic 回归 模型 CglmQ PR 
数 也 可 适用 于 其 他 模型 ， 稍 后 会 进一步 研究 ) 。 
类 似 于 线性 回归 和 回归 树 ， 可 用 summary 命令 查看 模型 结果 : 


summary (fit) 


Call: 
glm(formula = Detergent Quality ~ Quantity Deviation new + 
Stagel PrevProduct 1 * 

Stagel RM1 QParameter2 + Stagel RM1 QParameterl + 
Stagel RM2 QParameter2 * 

Stagel RM2 QParameterl + Stage3 RM1 QParameterl + 
Stagel ProductChange Flag, 


family = "binomial", data = train) 


Deviance ResidualsÓ: 


Min 19 Median 3Q Max 
-3.15433 0.09734 0.13489 0.88196 1.36402 
Coe£ficientsÓ: 


Estimate Std. Error z value Pr(>|z|) 
(Intercept)9 44.8389526  5.0582122 8.865 < 2e-16*** 


9 偏差 残 差 一 HE 
? 系数 一 译 者 注 
o 截 距 一 一 译 者 注 
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Quantity Deviation newLow 0.1205316 
Quantity Deviation newMedium 0.2632456 
Stagel PrevProduct 1Product 545 -0.3469915 
Stagel RM1 QParameter2 -0.6242709 
Stagel RM1 QParameteri -0.0005502 
Stagel RM2 QParameter2 -0.0416442 
Stagel RM2 QParameterl 0.0103492 
Stage3 RM1 QParameterl -0.1763619 
Stagel ProductChange FlagYes -0.1831766 
Signif. codes: 0 '***' 0.001 '**' 0.01 


Tx! 


© oOo OO © Oo © 


.2382435 0.506 0.613 
2599262 1.013 0.311 
2224928 -1.560 0.119 
3973832 -1.571 0-116 
0006402 -0.859 0.390 
0284004 -1.466 0.143 
0330121 0.313 0.754 
0314876 -5.601 .13e-08*** 
3778035 -0.485 0.628 
O50 -00 


(Dispersion parameter for binomial family taken to be 1)9 


Null deviance?: 840.51 on 799 degrees of freedom 


Residual devianceÜ: 569.85 on 790 degrees of freedom 


AIC: 589.85 


Number of Fisher Scoring iterationÜs: 7 


紧 接着 逐个 地 研究 Logistic 回归 的 结果 。 结果 中 显示 的 第 一 部 分 是 回归 调用 (公式 )， 


即 表示 一 个 因 变 量 对 多 个 自 变量 的 回归 。 


模型 检验 ( 拟 合 优 度 ) 在 Logistic 回归 中 与 在 经 典 线性 模型 或 任何 其 他 模型 中 同等 重 
要 。 拟 合 优 度 的 成 分 也 是 观测 值 和 拟 合 值 之 间 的 残 差 或 差异 。 与 线性 模型 的 例子 不 同 ， 
现在 必须 考虑 到 观测 值 具 有 不 同 的 方差 的 事实 。 使 用 的 残 差 类 型 有 “皮尔 逊 残 差 (Pearson 


» ^k 


^Po 


Residual) ”“ 偏 差 残 差 (Deviance Residual) 


glm() 函 数 计算 偏差 残 差 。 对 于 第 d 


个 观测 值 ， 偏 差 残 差 是 第 i 个 观测 值 对 总 偏差 取 有 正 负 之 分 的 平方 根 的 值 : 


Deviance Residuals: 
19 
0.09734 


Min 
-3.15433 


Median 
0.13489 


3Q 
0.88196 


二 项 族 的 色散 参数 取 1 一 一 译 者 注 
无 效 偏差 一 一 译 者 注 
o 残 差 偏差 一 译 者 注 
9 费 舍 尔 评分 迭代 的 次 数 一 译 者 注 


Max 
1.36402 
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计算 如 下 : 
1/2 
d, -sgn(y, obs ež), 2(n, -we | 
y, 


Ji n — Yi 


那些 含有 一 个 偏差 残 差 的 观测 值 超过 2 则 可 能 表明 失 拟 。 Logistic 回归 中 的 输出 默认 
情况 下 计算 偏差 残 差 ， 而 且 结 果 的 第 一 部 分 显示 的 也 是 偏差 残 差分 布 的 摘要 。 

继续 往 前 分 析 ， 此 刻 已 拥有 那些 结果 中 最 重要 的 部 分 ， 即 用 于 每 个 自 变量 的 估计 值 ， 
这 有 助 于 量化 每 个 自 变 量 对 最 终 因 变量 的 影响 程度 。 


Coefficients: 

Estimate Std. Error z value Pr(>|z|) 
(Intercept) 44.8389526 5.0582122 8.865 < 2e-16*** 
Quantity Deviation newLow 0.1205316 0.2382435 0.506 0.613 


Quantity Deviation newMedium 0.2632456 0.2599262 1.013 0.311 
Stagel PrevProduct 1Product 545 -0.3469915 0.2224928 -1.560 0.119 


Stagel RM1 QParameter2 -0.6242709 0.3973832 -1.571 0.116 
Stagel RM1 QParameteri -0.0005502 0.0006402 -0.859 0.390 
Stagel RM2 QParameter2 -0.0416442 0.0284004 -1.466 0.143 
Stagel RM2 QParameterl 0.0103492 0.0330121 0.313 0.754 
Stage3 RM1 QParameterl -0.1763619 0.0314876 -5.601 2.13e-08*** 


Stagel ProductChange FlagYes -0.1831766 0.3778035 -0.485 0.628 


上 述 代码 展示 了 早先 共用 的 Logistic 回归 输出 结果 的 一 小 部 分 。 估 计 值 显示 了 它们 对 
因 变 量 影响 的 程度 以 及 是 如 何 影响 的 ， 换 言 之 ， 系 数 给 出 了 在 预测 变量 中 一 个 单位 量 的 
增加 导致 结果 的 对 数 概率 的 变化 。 一 个 正 的 估计 值 表明 ， 对 于 每 个 自 变量 每 增加 一 个 单 
位 ， 比 值 比 的 对 数 也 会 相应 增加 ， 而 负 的 估计 值 则 是 另 一 种 方式 。 注 意 到 ， 在 回归 方程 
(公式 ) 中 使 用 的 所 有 自 变 量 都 计算 出 一 个 单独 的 估计 值 , 但 对 于 “Stage 1 Product Change 
Flag (阶段 1 产品 变化 提示 ) ”这 样 的 分 类 变量 ， 该 维度 已 经 在 内 部 将 它们 转换 成 二 进 制 
标志 和 相应 的 估计 值 。 这 是 因为 Logistic 回归 只 处 理 连续 变量 , 因此 每 个 分 类 变量 在 内 部 
被 编码 为 二 进 制 标 志 。 除 了 自 变量 ， 也 看 到 “Intercept( 截 距 ) ”。 当 所 有 分 类 预测 因子 
的 值 为 0 时 ， 截 距 是 事件 (良品 或 不 良品 ) 发 生 概率 的 对 数 。 

为 了 进一步 了 解 估计 值 的 好 处 ， 用 glm0 函 数 不 仅 计算 出 来 一 系列 结果 ， 并 且 也 得 到 
了 估计 值 。 发 现 标准 误差 、z 值 和 p 值 以 及 星 号 标注 可 帮助 轻而易举 地 识别 显著 性 。 使 用 
所 有 这 些 结果 的 最 终 目的 是 验证 事件 的 对 数 概率 与 自 变量 之 间 是 否 存 在 关系 。 为 了 证 明 
这 一 点 ， 计 算 标准 误差 ， 并 将 原 假设 设 定 为 : 事件 概率 的 对 数 和 x 之 间 不 存在 关系 。 然 
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后 ， 确 定 估 计 值 是 否 真 的 远离 0。 如 果 估 计 值 的 标准 误差 很 小 ， 那 么 相对 较 小 的 估计 值 
可 以 拒绝 原 假设 。 如果 标准 误差 很 大 ， 则 估计 值 也 应 该 足够 大 才 可 以 拒绝 原 假设 。 为 了 
检验 显著 性 ， 采 用 “Wald Z 统计 量 ” 来 衡量 估计 值 远离 0 的 标准 差 有 和 多少。 或 者 ,p 
值 有 助 于 更 直观 地 解释 结果 。 如 果 事 件 偶然 发 生 的 概率 小 于 5%， 则 可 以 确定 估计 值 的 
显著 性 。 

用 Wald Z 统计 量 代替 〈 在 线性 回归 中 使 用 的 ) T 统计 量 的 原因 是 ， 基 于 计算 估算 值 
的 方式 。 在 线性 回归 中 ， 使 用 普通 最 小 二 乘法 COLS) 技术 计算 估计 值 ， 但 在 Logistic 
回归 中 ， 采 用 MLE 技术 〈 如 前 所 述 ) 。 检 验 统计 值 的 选择 取决 于 如 何 计算 系 数 的 标准 
误差 。 

从 结果 中 可 以 看 到 , 只 有 截 距 和 Stage3 RMI QParameter 1( 阶 段 3 原料 1 质量 参数 1) 
预测 因子 比较 显著 ， 而 其 他 的 并 没有 。 通 过 比较 估计 值 和 标准 误差 就 能 轻而易举 地 探究 
出 个 中 原因 。 如 果 估 计 值 的 标准 误差 很 小 ， 那 么 相对 较 小 的 估计 值 可 以 拒绝 原 假设 ， 并 
且 看 到 很 多 情况 下 较 小 的 估计 值 都 具有 较 高 的 标准 误差 。 

Null deviance: 840.51 on 799 degrees of freedom 

Residual deviance: 569.85 on 790 degrees of freedom 


继续 往 下 分 析 ， 现 观察 到 在 预测 因子 的 估计 值 下 面 显示 了 两 种 类 型 的 偏差 结果 ， 即 
Null Deviance (无 效 偏差 ) 和 Residual Deviance ( 残 差 偏差 ) 。 偏 差 实际 上 是 一 个 广义 线 
性 模型 (在 本 节 的 例子 中 是 Logistic 回归 ) 拟 合 优 度 的 度量 ， 或 者 说 ， 它 是 衡量 拟 合 不 良 
的 一 个 指标 一 一 数字 越 高 表示 拟 合 越 差 。R 语言 中 的 glm0 函 数 给 出 了 两 种 偏差 形式 
无 效 偏差 和 残 差 偏差 。 无 效 偏差 表明 被 一 个 仅 包含 了 截 距 〈 总 均值 ) 的 模型 所 预测 的 响 
应 变量 程度 如 何 ， 残 差 偏差 则 表明 所 提出 的 模型 〈 即 我 们 提交 的 模型 ) 预测 的 响应 变量 
的 程度 。 解 释 偏差 也 是 易如反掌 的 。 很 小 的 无 效 偏差 表明 该 空 模型 (null model) 很 好 地 
解释 了 数据 。 这 与 残 差 偏差 也 是 一 样 的 。 无 效 偏差 和 残 差 偏差 之 间 的 差异 表明 自 变量 给 
拟 合 优 度 增 加 了 多 少 值 。 如 果 两 者 之 间 的 差异 较 高 ， 则 清楚 地 表明 那些 独立 的 预测 因子 
在 很 大 程度 上 有 助 于 解释 数据 。 在 例子 中 ,看 到 自由 度 为 799 时 的 无 效 偏差 为 840， Tf EI 
度 为 790 时 的 残 差 偏差 为 569。 添 加 了 9 个 预测 因子 后 ， 整 体 残 差 大 幅 下 降 ， 这 表明 预 
测 因子 很 好 地 解释 了 一 大 部 分 的 方差 。 

在 无 效 偏差 和 残 差 偏差 之 下 ， 还 发 现 有 AIC 结果 。AIC 也 就 是 赤 池 信息 量 准则 ， 它 
是 用 来 研究 跨 模型 拟 合 优 度 的 另 一 个 度量 标准 : 


AIC: 589.85 


在 此 处 例子 中 ，AIC 值 是 589， 可 以 用 来 作为 模型 构建 练习 的 其 他 迭代 的 AIC 值 比 


ni 
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较 度量 。 如 果 另 一 个 模型 的 AIC 值 较 低 ， 则 可 推断 出 新 模型 与 当前 模型 相 比 具有 更 好 的 
拟 合 优 度 。 

最 后 ， 还 有 用 于 模型 收敛 的 费 舍 尔 评分 迭代 次 数 。Logistic 回归 使 用 MLE 来 计算 估 
计 值 ， 这 需要 进行 多 次 迭代 。MLE 从 一 个 初始 估计 值 开 始 ， 并 尝试 根据 每 次 迭代 的 结果 
来 改进 。 该 算法 然后 考虑 看 看 采用 不 同 的 估计 值 是 否 可 以 改进 拟 合 。 若 是 如 此 ， 它 就 会 
朝 着 这 个 方向 继续 比如 说 ， 使 用 更 高 的 估计 值 》， 然 后 再 次 拟 合 模 型 。 当 算法 感觉 到 
再 次 往 前 不 会 产生 额外 更 多 改进 时 ， 该 算法 就 会 停止 。 下 面 的 一 行 代码 告诉 我 们 ， 在 进 
程 停止 之 前 执行 了 多 少 次 迭代 并 输出 结果 。 


Number of Fisher Scoring iterations: 7 


前 面 对 Logistic 回归 结果 中 显示 的 各 种 结果 进行 了 深入 的 探讨 , 这 有 助 于 理解 预测 因 
子 在 预测 结果 〈 即 洗涤 剂 质量 ) 的 估计 或 影响 。 可 是 ， 还 遗漏 了 什么 信息 ?与 线性 回归 
不 同 ， 这 里 没有 任何 Logistic 回归 的 整体 拟 合 优 度 的 度量 ， 例 如 RR 平 方 和 下 统计 量 。 而 
且 ， 也 没有 任何 指标 或 统计 数据 可 为 提供 已 建 模型 的 整体 情况 。 

1. 如 何 评估 模型 的 拟 合 优 度 或 准确 度 

绝对 不 能 采用 MAPE， 并 且 也 无 法 计算 Logistic 回归 的 R 平方 。 为 了 观察 全 面 ， 还 需 
再 对 一 些 人 额外 的 东西 进行 计算 。 接 下 来 将 应 用 混淆 矩阵 和 ROC 曲线 来 解决 我 们 的 问题 。 

那么 ， 什 么 是 混淆 矩阵 和 ROC 曲线 ?它们 会 起 到 什么 作用 ? 

混淆 矩阵 是 一 张 用 来 分 析 模 型 性 能 (分 类 ) 的 表格 。 和 矩阵 的 每 一 列表 示 一 个 预测 分 
类 中 的 多 个 实例 ， 而 每 一 行 表示 一 个 实际 分 类 中 的 多 个 实例 ， 反 之 亦 然 。 同 样 地 ， 受 试 
者 工作 特征 (Receiver Operating Characteristic, ROC) 曲线 通过 在 真 阳性 ? (True Positive, 
TP) 和 假 阳 性 〈False Positive, FP) 误差 率 之 间 的 一 系列 折 中 中 ， 总 结 分 类 模型 性 能 的 
一 种 标准 技术 。ROC 曲线 是 灵敏 度 〈 模 型 正确 预测 事件 的 能 力 ) 与 1- 特 异 度 的 坐标 图 ， 
以 诊断 可 能 的 分 类 概率 界限 值 。 

2. 新 术语 

接着 逐一 来 学 习 这 些 新 术语 。 下 面 从 探索 混淆 矩阵 开始 。 为 了 构建 混淆 矩阵 ， 需 要 
预测 一 个 样本 测试 集 的 结果 。 那 么 ， 可 用 R 语言 中 的 “predict” 预 测 函 数 来 预测 洗涤 剂 
质量 为 “Good (良品 ) ”结果 的 概率 。 如 果 概 率 大 于 0.5， 则 认为 它 是 “Good (良品 ) ”。 


e 


© ROC 曲线 若 用 在 医学 统计 中 ，True Positive (TP) 通 译 为 真 阳性 ， 故 采用 “ 真 阳性 ”的 译 法 。False Positive (FP) 为 假 阴 
性 ， 其 他 以 此 类 推 。 一 一 译 者 注 
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否则 ， 就 属于 “Bad (不 良品 ) ”: 


predicted probability«-predict (fit,newdata-test,type-"response") 
summary (predicted probability) 


Min. 1st Qu. Median Mean 3rd Qu. Max. 
0.3417 0.5376 0.7065 0.7599 0.9913 0.9961 


predicted«-as.factor(ifelse(predicted probability»0.5,"Good","Bad")) 
actuals«-test$Detergent Qualitytable (actuals,predicted) 


predicted 
actuals Bad Good 
Bad 25 35 
Good 16 134 


可 以 看 到 概率 的 分 位 数 分 布 ， 第 25 百 分 位 数 显 示 为 33%， 这 表明 大 部 分 结果 预测 为 
“良品 ”， 而 “不 良品 ” 届 指 可 数 。 这 也 说 明了 是 与 数据 一 致 的 ， 因 为 只 有 大 约 20% 的 
数据 为 “不 良品 ” 

图 4.6 显示 了 前 面 预测 的 混淆 矩阵 示例 。 


上 面 的 每 行 表 示 实 际 值 ， 每 列 则 表示 预测 值 。 把 矩阵 的 每 一 行 看 成 是 实际 值 的 总 和 ， 
第 一 行为 全 部 成 品 中 的 “不 良品 ”， 其 中 15 个 被 正确 地 预测 为 “不 良品 ”， 另 外 35 个 
被 错误 地 预测 为 “良品 ”。 同 样 ， 每 列 可 以 被 看 成 是 预测 的 总 和 ， 也 就 是 说 ， 第 一 列 可 
被 推断 为 所 有 预测 值 中 的 “不 良品 ”， 其 中 15 个 被 正确 地 预测 为 “不 良品 ”， 并 且 还 有 
16 个 被 错误 地 预测 为 “不 良品 ”。 根 据 实际 值 和 预测 值 ， 在 混淆 矩阵 中 为 每 个 列 给 出 另 
一 个 名 称 ， 如 下 。 
O 真 阳性 (TP): 预测 为 真 而 实际 为 真 。 
O BHE CFP: 预测 为 真 而 实际 为 假 。 
O 真 阴性 CTN) : 预测 为 假 而 实际 为 假 。 
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假 阴性 (END :预测 为 真 而 实际 为 假 ”。 


前 面 的 混淆 矩阵 没有 显示 具体 的 术语 ， 下 面 补 全 出 来 ， 如 图 4.7 所 示 。 


预测 


[s] In] 
T2134 


图 4.7 


通常 ， 根 据 混淆 矩阵 计算 出 的 指标 详尽 列表 ， 有 助 于 解释 分 类 模型 的 拟 合 优 度 ， 如 下 。 


0 


日 


口 


m) 


总 体 精度 〈overall accuracy) : 总 体 而 言 ， 分 类 器 的 分 类 正确 率 是 多 少 ? 

(TP+ TN)/ 总 =(15 + 134)/ 200 = 0.75 
误 分 类 率 或 误差 率 (Misclassification rate or error rate) : 总 体 而 言 ， 分 类 器 发 生 
并 误 的 比率 是 多 少 ? 

(EP+FN)/ 总 =(16+35)/ 200 = 0.25 (等 同 于 1- 正确 率 ) 

真 阳性 率 (True Positive Rate, TPR) : 当 实 际 为 真 时 ， 预 测 也 为 真 的 结果 所 占 
比率 是 多 少 ? 

TP (TP + FN)- 134 /(16 + 134)- 0.89 
也 被 称 为 灵敏 度 或 召回 率 。 
假 阳性 率 (False Positive Rate, FPR) : 当 实 际 为 假 时 ， 预 测 为 真 的 结果 所 占 比 
率 是 多 少 ? 

FP (TN + FP)= 35 /(15 + 35)- 0.7 
特异 度 或 真 阴性 率 (Specificity or true negative rate) : 当 实 际 为 假 时 ， 预 测 为 假 
的 结果 所 占 比 率 是 多 少 ? 
TN /实际 为 假 =15 /(15+ 35)= 0.3〈 等 同 于 1 - 假 阳性 率 ) 

真 阳 准确 率 Ctrue precision) : 当 预 测 为 真 时 ， 准 确 率 为 多 少 ? 


TP/“Good (良品 ) ”总 预测 (预测 为 良品 的 总 数 ) = 134 /(35 + 134)= 0.79 


假 阴 准确 率 (false precision) : 当 预 测 为 假 时 ， 准 确 率 为 多 少 ? 


FN/ “Bad (不 良品 ) ”总 预测 〈 预 测 为 不 良品 的 总 数 ) = 15 /(15 + 16)= 0.48 
通过 以 上 结果 ， 对 模型 性 能 获得 了 一 个 比较 全 面 的 看 法 。 可 以 清楚 地 了 解 模型 在 哪 
些 方面 表现 欠 佳 以 及 表现 如 何 。 基 于 这 个 结果 ， 又 能 进一步 采取 措施 优化 模型 。 对 于 目 


© 原文 为 “False Negative (FN): When it is predicted as TRUE and is actually FALSE (预测 为 真 而 实际 为 假 )”。 原 文 有 误 ， 此 处 
应 为 “预测 为 假 而 实际 为 真 ”。 一 一 译 者 注 
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前 的 结果 明显 地 看 到 ， 即 使 已 经 取得 了 一 个 不 错 的 总 体 精 度 ， 也 无 法 正确 地 预测 大 多 数 
“不 良品 ”的 情况 。 在 用 例 中 ,我 们 的 主要 目标 是 能 够 事先 正确 地 预测 “良品 ”以 及 “不 
品 ” 的 洗涤 剂 。 这 一 目标 决定 了 两 者 的 同等 重要 性 。 

简 而 言 之 , 这 时 的 模型 具有 一 个 非常 高 的 假 阳性 率 (FPR ) 和 较 低 的 真 阴性 率 (TNR ) 。 
团队 能 够 清晰 地 观察 到 ， 模 型 将 许多 “不 良品 ”的 情况 错误 地 预测 为 “良品 ”。 那 么 ， 
e 点 ? 下 面 就 选择 0.5 的 概率 临界 值 用 于 区 分 “良品 ”和 “不 良品 ” 
道 这 是 否 会 对 结果 产生 影响 ? 

答案 是 肖 定 的 。 接 下 来 看 看 它 是 如 何 影响 的 。 在 大 多 数 平均 情况 下 ，“ 真 ”和 “ 假 ” 
情况 的 概率 临界 值 选 择 为 0.5， 但 可 以 根据 用 例 明确 选择 更 高 或 更 低 的 临界 值 。 这 些 用 例 
指 的 是 特定 行业 和 特定 领域 的 。 这 一 切 都 取决 于 什么 对 您 是 更 重要 的 一 一 真 阳性 率 ( 灵 
敏 度 ) 或 真 阴性 率 (特异 度 ) ， 或 两 者 兼 而 有 之 。 有 一 些 用 例 预测 “ 真 ”事件 对 于 业务 
来 说 变 得 越 来 越 重 要 。 比 如 ， 一 家 零售 连锁 店 希 望 识别 出 具有 高 价值 的 客户 。 模 型 将 一 
个 低 价 值 的 客户 可 能 预测 为 一 个 高 价值 的 客户 ， 这 种 情况 还 能 接受 。 然 而 ， 如 果 把 一 个 
高 价值 的 客户 预测 为 低 价值 的 客户 ， 这 就 可 能 会 给 他 们 的 业务 带 来 巨大 的 损失 。 在 这 种 
情况 下 ， 取 得 更 高 的 灵敏 度 才 是 最 大 的 需求 。 aed rap nett sia 
“ 假 ”对 于 业务 举足轻重 ， 例 如 一 个 医疗 中 心 正在 预测 癌症 患者 。 相 对 而 言 ， 预 测 一 
BT a piedi RU 
生命 危险 ! 在 这 种 情形 中 ， 对 特异 度 的 要 求 无 疑 很 高 。 因 此 ， 关 于 特异 度 和 灵敏 度 的 研 
究 可 用 来 帮助 任何 一 个 用 例 选 择 一 个 最 佳 临界 值 。 

本 用 例 中 , 这 两 个 事件 都 同等 重要 。 对 于 约翰 的 业务 而 言 , 将 “ 真 ” 事 件 预测 为 “ 真 ” 
和 将 “ 假 ” 事 件 预测 为 “ 假 ” 的 重要 性 不 相 上 下 。 因 此 ， 不 仅 要 求 总 体 精度 更 高 ， 而 且 
无 须 在 敏感 性 或 特异 度 上 做 出 较 大 的 妥协 。 为 了 探 清 概率 的 最 佳 临界 值 以 获得 最 高 
正确 率 ， 可 采用 R 语言 中 的 accuracy0 函 数 ， 将 不 同 临 界 值 的 总 体 精度 可 视 化 ， 如 图 4.8 
所 示 。 


library (AUC) 


actuals«-test$Detergent Quality 
plot (accuracy (predicted probability, actuals)) 


图 4.8 显示 了 不 同 概率 临界 值 的 模型 的 总 体 精 度 。 正 如 所 看 到 的 ， 在 约 0.5 之 后 ， 总 
体 精度 逐渐 下 降 。 因 此 ， 初 始 的 概率 临界 值 或 多 或 少 正 是 所 选 最 好 的 临界 值 。 
同样 ， 为 了 直观 地 了 解 这 里 的 模型 如 何 执行 ， 可 应 用 ROC 曲线 。 如 前 所 述 ，ROC 
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曲线 是 灵敏 度 〈 模 型 正确 地 预测 事件 的 能 力 ) 与 1- 特 异 度 的 坐标 图 ， 用 以 诊断 可 能 的 分 
类 概率 界限 值 。 解 释 ROC 曲线 也 十 分 简单 。ROC 曲线 可 视 化 帮助 理解 模型 与 随机 预测 
的 比较 。 随 机 预测 总 是 有 “50% 的 可 能 性 会 正确 预测 ， 通 过 与 这 个 模型 相 比 ， 可 以 了 解 到 
我 们 的 模型 的 好 处 。 


IE 
确 
率 


00 02 04 06 08 10 


图 4.8 
使 用 以 下 代码 绘制 出 之 前 拟 合 的 模型 的 ROC 曲线 ， 如 图 4.9 所 示 。 


library (AUC) 
plot (roc (predicted probability,actuals)) 


* 154° 当 大 数据 遇见 物 联网 一 一 智能 决策 解决 之 道 


对 角 线 表示 随机 预测 的 正确 率 ， 从 对 角 线 向 左上 角 的 提升 表明 ， 这 时 的 模型 与 随机 
预测 相 比 改进 的 程度 有 多 大 。 再 去 观察 前 面 的 图 ， 可 看 到 模型 比 对 角 线 更 高 ， 并 且 比 随 
机 模型 具有 更 好 的 准确 度 。 从 对 角 线 上 提升 更 高 的 模型 被 认为 是 更 准确 的 模型 。 


4.4.3 ”扼要 概述 模型 的 解释 


至 今 为 止 ， 已 深入 研究 了 Logistic 回归 建 模 练习 。 开 始 执 行 一 个 基础 的 迭代 ,学 习 如 
何 解释 结果 。 因 而 掌握 了 如 何 量化 每 个 独立 预测 因子 对 纯粹 结果 《〈 即 事件 比值 比 的 对 数 ) 
的 影响 ， 并 研究 了 其 他 指标 ， 以 帮助 理解 模型 拟 合 优 度 的 整体 情况 。 接 着 ， 计 算 混 淆 矩 
阵 ， 将 ROC 曲线 可 视 化 。 到 现在 为 止 ， 所 得 到 的 结果 并 不 是 很 好 。 虽 然 有 了 一 个 不 错 的 
总 体 精度 ， 但 这 时 模型 具有 一 个 非常 高 的 假 阳 性 率 (FPR) ， 因 此 不 能 正确 地 预测 “不 良 
品 ” 的 结果 。 后 续 应 该 尝试 调整 模型 来 改善 其 性 能 ， 采 用 更 好 的 真 阳性 率 CTPRO 和 真 阴 
PER (TNR) 进行 预测 。 


444 改进 分 类 模型 


前 面 的 练习 只 是 对 Logistic 回归 模型 的 粗略 浅 尝 。 接 下 来 专注 于 改进 模型 ， 以 获得 更 
好 、 更 准确 的 结果 。 为 了 理解 整体 拟 合 优 度 ， 将 采用 总 体 精度 、TPR 和 TNR. 

1 确定 方法 

类 似 于 线性 回归 ， 可 用 “向 前 选择 ”“ 向 后 剔除 ”或 两 者 的 组 合 来 开始 建 模 。 下 面 
应 用 向 后 剔除 法 。 

2. 应 该 如 何 做 

截至 目前 ， 在 整体 分 析 中 已 经 确定 了 一 些 重要 的 预测 因子 并 拟 出 了 一 个 列表 ， 因 而 
就 从 这 着 手 开 始 分 析 。 随 后 ， 将 用 所 有 独立 的 预测 因子 进行 Logistic 回归 迭代 ， 尝 试 改进 
结果 。 而 运用 p 值 和 估计 值 ， 可 以 确定 每 个 预测 因子 在 精确 解析 它 与 相关 结果 的 关系 中 
的 重要 性 ， 接 着 剔除 那些 增加 零 值 或 低 值 的 值 。 而 后 对 预测 结果 进行 一 些 数据 转换 ， 以 
进一步 改进 结果 。 最 后 ， 在 数据 集 上 测试 结果 ， 使 用 各 种 指标 和 检验 ， 检 查 数据 的 拟 合 
优 度 。 

3. 开始 建 模 

从 整体 分 析 中 已 被 确定 为 重要 的 预测 因子 列表 开始 。 在 拟 合 模型 之 后 ， 用 概率 临界 
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值 0.5 预测 结果 ， 并 计算 不 同 的 拟 合 优 度 的 度量 : 


fit<-glm(Detergent Quality~ 


#The Production Quantity deviation feature 


〈 生 产量 偏差 特征 ) 
Quantity Deviation new + 
AssemblyLine ID * 


#The Production Quantity deviation feature 
〈 生 产量 偏差 特征 ) 
Stagel PrevProduct 1 + 


#Raw Material Quality Parameters 
(原料 质量 参数 ) 

Stagel RM1 QParameter2 
Stagel RM1 QParameterl 
Stagel RM2 QParameter2 
Stagel RM2 QParameterl 
Stage3 RM1 QParameterl 
Stage3 RM1 QParameter2 
Stage3 RM2 QParameterl 
Stage3 RM3 QParameter2 
Stage3 RM3 QParameterl 


+++++ + + + + 


#Machine/Resources used in a Stage 
(一 个 阶段 中 使 用 的 机 器 /资源 ) 
Stage3 ResourceName new + 
Stagel ProductChange Flag, 
data-train, 
family = "binomial" 

) 


summary (fit) 


* 156* 当 大 数据 遇见 物 联网 一 一 智能 决策 解决 之 道 


gim(formula = Detergent Quality ~ Quantity Deviation new + 
AssemblyLine ID + 


Stagei PrevProduct 1 + Stagei RM1 QParameter2 + 
Stagel RMi QParameteri + 

Stagei RM2 QParameter2 + Stagei RM2 QParameteri + 
Stage3 RM1 QParameteri + 

Stage3 RM1 QParameter2 + Stage3 RM2 QParameteri + 
Stage3 RM3 QParameter2 + 

Stage3 RM3 QParameteri + Stage3 ResourceName new + 
Stagei Productchange Flag, 

family = "binomial", data = train) 


Deviance Residuals: 
Min 10 Median 3Q Max 
-3.3815 0.0645 0.1213 0.6787 1.5129 


Coefficients: 

Estimate Std. Error z value Pr(»|z|) 
(intercept) 46.7480396 5.4505701 8.577 < 2e-16 
Quantity Deviation newLow 0.1106493 0.2545713 0.435 0.663817 
Quantity Deviation nevMedium 0.3149165 0.2683646 1.173 0.240609 
AssemblyLine IDLine 2 0.2079202 0.2689347 0.773 0.439448 
Stagei PrevProduct iProduct 545 0.4152689 20.4153397 1.000 0.317393 
Stagei RM1 QParameter2 -0.4453806 0.4082431 -1.091 0.275287 
Stagel RM1 QParameteri 0.0003624 0.0007384 0.491 0.623575 
Stagei RM2 QParameter2 -0.0148075 .0311087 -0.476 0.634080 
Stagei RM2 QParameteri 0.0245136 0.0357919 0.685 0.493412 
Stage3 RM1 QParameteri -0.1307426 .0393105 -3.326 0.000881 +++ 
Stage3 RM1 QParameter2 -2.9851588 2.5515944 -1.170 0.242034 
Stage3 RM2 QParameteri -0.0255049 .0134841 -1.891 0.058560 
Stage3 RM3 QParameter2 -0.0064451 0.0123199 -0.523 0.600870 
Stage3 RM3 QParameteri -0.1592651 20.1173381 -1.357 0.174680 
Stage3 ResourceName newResource 108 -0.7249357 0.3926719 -1.846 0.064869 . 
Stage3 ResourceName newResource 109 -1.2094513 0.4141960 -2.920 0.003500 
Stagei Productchange FlagYes -0.2346322 0.3997010 -0.587 0.557191 


Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 *.' 0.1 ' ' 1j 
(Dispersion parameter for binomial family taken to be 1) 

Null deviance: 840.51 on 799 degrees of freedom 
Residual deviance: 545.17 on 783 degrees of freedom 


AIC: 579.17 


Number of Fisher Scoring iterations: 7 
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#Creating a Function to predict and calculate TPR,TNR, Overall accuracy 


from the confusion matrix 


〈 从 混淆 矩阵 中 创建 一 个 预测 和 计算 TPR TNR 和 总 体 精度 的 函数 ) 


prediction summary<-function (fit,test) 


t 

$Predicting results on the test data, using the fitted model 

(使 用 拟 合 后 的 模型 预测 测试 数据 的 结果 ) 

predicted probability<-predict (fit,newdata=test, 
type="response") 

print ("Distribution of Probability") 

print("") 


print (summary (predicted probability)) 
predicted«-as.factor(ifelse(predicted probability»0.5, 
"Good", "Bad") ) 


actuals«-test$Detergent Quality 


confusion matrix«-table (actuals, predicted) 
print("Confusion Matrix :-") 
print (confusion matrix) 


print ("") 


d$Calcualting the different measures for Goodness of fit 
(计算 拟 合 优 度 的 不 同 指标 ) 

TP<-confusion matrix[2,2] 

FP«-confusion matrix[1,2] 

TN«-confusion matrix[1,1] 


FN«-confusion matrix[2,1] 


#Calcualting all the required 
(计算 所 有 需要 的 ) 
print (paste ("Overall accuracy -> 
", (TP+TN) /sum(confusion matrix))) 


print (paste ("TPR -> ",TP/(TP-FN))) 


*158* 当 大 数据 遇见 物 联 网 一 一 智能 决策 解决 之 道 


print (paste ("TNR -> ",TN/ (TN+FP))) 
print (paste ("FP -> ",FP/(TN+FP))) 


#Viewing the results together 


(查看 所 有 结果 ) 


#Calling the function to view results 
(调用 函数 查看 结果 ) 


prediction summary (fit,test) 


#Results 
(结果 ) 
[1] "Distribution of Probability" 
[1] "n" 
Min. 1st Qu. Median Mean 3rd Qu. Max. 


0.2747 0.5274 0.7977 0.7527 0.9927 0.9982 


[1] "Confusion Matrix :-" 
predicted 
actuals Bad Good 
Bad 20 30 
Good 24 126 
(gj ws 


[1] "Overall accuracy -> 0.73" 
[1] "IPR -> 0.847 

[1] "TNR -> 0.4" 

[LD "PE => 0er 


灰色 突出 显示 的 预测 因子 已 被 确定 为 重要 的 预测 因子 。 可 以 看 到 ， 只 有 截 距 和 其 他 
两 个 预测 指标 〈 即 Stage 3 RMI QParameter 1 (阶段 3 原料 1 质量 参数 1) 和 Stage3 
ResourceName (阶段 3 资源 名 称 ) ) 非常 显著 。 与 前 面 的 第 一 个 练习 相 比 ， 整 体 结果 略 
有 改善 。 

这 里 有 一 个 额外 的 显著 变量 ， 残 差 偏差 从 自由 度 为 790 时 的 569.85 降低 到 自由 度 为 
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* 159* 


783 时 的 545.17. 4% AIC 从 589. 上 升 到 579， 总 体 精度 似乎 有 所 下 降 ， 但 是 TNR 从 0.3 
上 升 到 了 0.4， 整 体 FPR 从 0.7 下 降 到 了 0.6， 并 且 相 对 获得 了 更 好 的 改进 。 仍 需要 不 断 
改进 总 体 精度 、TPR 和 TNR， 从 而 降低 FPR。 


4. 


列表 中 的 那些 显著 变量 已 用 灰色 突出 显示 。 类 似 于 线性 回归 ， 下 一 步 可 舍弃 一 些 不 
显著 的 变量 ， 进 一 步 微调 显著 的 变量 以 提高 拟 合 优 度 ， 或 者 可 以 尝试 改进 不 显著 和 显著 


的 预测 


于 预测 
如 平方 


能 有 价 


GO) 、 立 方 G) 、 指 数 (e") 、 对 数 转换 等 。 这 些 转换 只 能 应 用 于 预测 因 


如 果 仔 细 观 察 结 果 ， 就 能 发 现 9 个 原料 质量 参数 中 只 有 一 个 是 显著 的 。 数 据 转换 可 
值 ， 也 可 能 没有 价值 。 只 能 用 试 错 法 来 验证 结果 。 可 以 在 预测 因子 上 尝试 所 有 的 


数据 变换 组 合 ， 最 后 选择 能 够 呈现 最 佳 结 果 的 组 合 。 
9:5. 

建议 读者 执行 各 种 Logistic EL J8 3E AX , 以 查看 不 同 转换 的 结果 差异 。 以 下 展示 的 结果 
是 针对 不 同类 型 的 数学 数据 转换 ， 所 执行 的 各 种 迭代 之 一 的 输出 。 

与 线性 回归 类 似 ， 没 有 看 到 数据 转换 带 来 的 具体 改进 。 而 且 ， 数 据 转换 只 会 在 
程度 上 恶化 拟 合 优 度 。 以 下 结果 展示 了 尝试 数据 转换 的 迭代 之 一 : 

> #the variable fit has the best iteration in the experiments 


(变量 拟 合 在 实验 中 的 最 佳 兴 代 ) 


> summary (fit) 


Call: 
gim(formula = Detergent Quality ~ Quantity Deviation new + 


AssemblyLine ID 4 
Stagei PrevProduct 1 + 
log(Stagel RMi QParameter2) + 
Stagei RM1 QParameteri + 
(Stagel_ RM2 QParameter2)^2 + 
log(stagei RM2 QParameteri) + 
log(Stage3 RMi QParameteri) + 
log(Stage3 RMi QParameter2) + 
(stage3 RM2 QParameteri)^3 + 
log(stagei RM3 QParameter2) + 
(Stage3 RM3 QParameteri)^2 + 
Stage3 ResourceName new + 
Stagei ProductChange Flag, 
family = "binomial", data = train) 


因子 。 下 面 还 会 尝试 使 用 试 错 法 对 连续 预测 因子 进行 数据 转换 ， 因 为 将 转换 应 用 
因子 或 因 变 量 有 助 于 在 某 些 情况 下 更 直观 地 获得 方差 。 转 换 可 以 是 任何 形式 ， 例 


子 


一 定 


* 160 * 当 大 数据 遇见 物 联 网 一 一 智能 决策 解决 之 道 


Deviance Residuals: 
Min 1Q Median 3Q Max 
-3.4029 0.0640 0.1193 0.6977 1.5571 


Coefficients: 

Estimate Std. Error z value Pr(>|z|) 
(intercept) .769e-02 4.250er01 .162 3.15e-05 
Quantity Deviation newLow .972e-01 2.441e-01 .808 0.41916 
Quantity Deviation nevMedium .100e-02 3.030e-01 .234 0.81471 
AssemblyLine IDLine 2 .715e-01 .685e-01 .639 52288 
Stagei PrevProduct iProduct 545 .102e-01 .118e-01 .996 31910 
log(Stagei RMi QParameter2) ,466e+00 1.431er00 .025 30538 
Stagel RM1 QParameter1 .724e-04 .362e-04 .642 52103 
Stagel RM2 QParameter2 .226e-02 .103e-02 .395 .69287 
Tog(Stagel RM2 QParameteri) ,273e+00 5.451er00 .784 0.43309 
log(Stage3 RM1i QParameteri) .983er01 8.427e*00 .540 0.00040 
log(Stage3 RM1i QParameter2) .802e-01 2.511e-01 .116 0.26442 
Stage3 RM2 QParameteri .475e-02 .349e-02 .834 06665 . 
Tog(Stage3 RM3 QParameter2) .360e-00 6.901e+00 .487 62629 
Stage3 RM3 QParameteri .396e-01 .159e-01 .205 22812 
Stage3 ResourceName newResource 108 -7.462e-01 .927e-01 .900 05742 . 
Stage3 ResourceName newResource 109 -1.249e-00 .160e-01 .002 00269 
Stagei ProductChange FlagYes -1.996e-01 4.023e-01 .496 0.61981 


signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 *.' Q.1'"'1 


4e de Q0 P Ch b F8 Qo US QU ^X d d» hJ) uU PN 
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(Dispersion parameter for binomial family taken to be 1) 


Null deviance: 840.51 on 799 degrees of freedom 
Residual deviance: 545.47 on 783 degrees of freedom 
AIC: 579.47 


Number of Fisher Scoring iterations: 7 


fCalling the Prediction Summary Function, we created earlier 
(调用 之 前 创建 的 Prediction Summary 函数 ) 
prediction summary (fit,test) 
[1] "Distribution of Probability" 
[1] 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
0.2780 0.5291 0.7953 0.7526 0.9927 0.9983 


[1] "Confusion Matrix :-" 
predicted 
actuals Bad Good 
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Bad 19 31 
Good 24 126 
[1] 
[1] "Overall accuracy -> 0.725" 
[1] "TPR -> 0.84" 
[1] "TNR -> 0.38" 
[1] "FE => 0. 62n 
尝试 对 数据 进行 了 平方 运算 、 立 方 运算 以 及 多 次 对 数 运算 。 概 而 言 之， 与 之 前 的 选 
代 相 比 ， 可 以 显而易见 地 看 到 TNR 小 幅 下 降 ， 而 TPR 上 升 。 结 果 相 对 糟糕 。 总 体 精度 也 


5. 添加 交互 项 
由 于 在 数据 转换 练习 中 没有 获得 更 好 的 结果 ， 这 时 试 着 添加 交互 变量 。 如 线性 回归 
所 讨论 的 ， 在 一 个 自 变量 对 结果 产生 的 不 同 影响 取决 于 另 一 个 自 变 量 的 值 时 ， 交 互 变量 
就 会 产生 ， 也 就 是 两 个 变量 同时 对 另外 一 个 变量 的 影响 不 可 以 相 加 的 情况 。 

以 下 方程 式 有 助 于 理解 这 一 点 : 
Y = P, + 2,4 + P,B + P(A B) + &#55349; 

下 面 的 迭代 展示 了 在 交互 变量 试验 中 各 种 组 合 所 获得 的 相对 较 好 的 模型 结果 。 考 
虑 了 多 个 原料 质量 参数 组 合 之 间 的 交互 作用 ， 并 选择 了 给 出 最 佳 准确 度 的 迭代 。 一 些 
不 显著 的 变量 已 被 淘汰 ， 少 数 被 保留 。 可 以 看 到 ，AIC 值 大 幅 减少 了 ， 残 差 偏差 也 有 
所 减少 。 

>#fit contains the Logistic Regression iteration with Interaction variables 

( 拟 合 包 含有 具有 交互 变量 的 Logistic BIET 


>summary (fit) 


call: 

glm(formula = Detergent Quality ~ Quantity Deviation new + AssemblyLine ID + 
Stagel PrevProduct 1 + Stagei RM1 QParameter2 + Stagel RM1 QParameterl + 
Stagel RM2 QParameter2 + Stagei RM2 QParameteri + Stages RM2 OParameterl + 
Stage3 RM3 OParameterl + 
Stagel RMi OParameter2 * Stage3 RM3 QParameteri + 


Stagel RM2 OParameter2 * Stage3 RM2 QParameteri + 
5tagel RM2 QParameterl * stage3 RM2 QParameteri + 
Stage3 RMi OParameterl * Stagei RM2 QParameteri + 
5tagei ResourceName new + 

Stagel ProductcChange Flag. 

family = "binomial", data = train) 


“162 。 当 大 数据 遇见 物 联 网 一 一 智能 决策 解决 之 道 


Deviance Residuals: 
Min 10 Median 30 
-3. 5814 0.0033 0.0427 0.6614 


Coefficients: 

Estimate std. Error z value Pr(»|z|) 
(Intercept) 6.973e+02 1. 736e+02 4.017 5,9e-05 
Quantity Deviation newLow 1.768e-01 2.508e-01 0.705 0.48086 
Quantity Deviation newMedium -1.426e-01 3.1378-01 -0.455 0.64328 
AssemblyLine IDLine 2 -1.782e-01 2.890e-01 -0.616 0.53763 
Stagel PrevProduct 1Product, 545 6.680e-02 4.277e-01 0.156 0.875898 
Stagel RMi QParameter2 -1.151e401 3.925e«00 -2.934 0.00335 
Stagel RM1 QParameterl 3.055e-04  7.587e-04 0.403 0.68721 
Stagel RM2 QParameter2 5.888e«00 1.851e«00 3.181 0.00147 
Stagel RM2 QParameterl -6.180e«00 1.554e«00 -3.976  7.0e-05 
Stage3 RM2 OParameterl -7.761e-01 3.870e-01 -2.005 0.04493 
Stages RM3 QParameterl -5,407e400 1.890e«00 -2.861 0.00422 
Stages RMi OParameterl -1.004e«00 239.497e-01 -1.057 0.29060 
Stage3 ResourceName newResource 108 -6.769e-01 4.102e-01 -1.650 0.09890 
5tage3 ResourceName newResource 109 -1.307e«00 4.169e-01 -3.135 0.00172 
Stagel ProductChange FlagYes -2.773e-01 34.150e-01 -0.6638 0.50401 
Stagel RMi OParameter2:Stage3 RM3 OParameteri 1.553e«00 £5.509e-01 2.818 0.00483 
Stagel RM2 OParameter2:Stage3 RM2 QParameteri -1.026e-02 3.220e-03 -3.185 0.00145 
Stagel RM2 OParameterl:Stage3 RM2 OParameteri $8.557e-03 3.043e-03 2.812 0.00492 
Stagel RM2 OParameterl:Stage3 RM1 QParameteri 6.026e-03 6.224e-03 0.968 0.353289 


Signif. codes: 0 ****! 0,001 !**' 0.01 '*' 0.05 1.! 0.1 5 
(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 840.51 on 799 degrees of freedom 


Residual deviance: 516.87 on 781 degrees of freedom 
AIC: 554.87 


Number of Fisher Scoring iterations: 8 


fCalling the Prediction Summary Function, we created earlier 
(调用 之 前 创建 的 Prediction Summary 函数 ) 


prediction summary (fit,test) 


[1] "Distribution of Probability" 
[1] 

Min. 1st Qu. Median Mean 3rd Qu. Max. 
0.2780 0.5291 0.7953 0.7526 0.9927 0.9983 


[1] "Confusion Matrix :-" 


predicted 
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actuals Bad Good 

Bad 19 31 

Good 24 126 
[1] 
[1] "Overall_accuracy -> 0.725" 
[1] "TPR -> 0.84" 
[1] "TNR -» 0.38" 
[Z]S"EPI-»305262" 


尽管 模型 具有 相对 较 好 的 拟 合 优 度 ， 但 TPR、TNR 和 总 体 精度 的 结果 仍然 没有 多 大 
变化 。 依 旧 没 有 观察 到 任何 更 好 的 结果 。 所 以 我 们 的 结果 没有 任何 改善 ， 混 淆 矩阵 依然 
如 故 。 而 且 模 型 的 FPR 还 非常 高 ，TNR 也 较 低 。 

6. 采取 什么 措施 来 改进 

数据 的 一 个 问题 在 于 洗涤 剂 质量 样本 “良品 ”和 “不 良品 ”的 分 布 是 倾斜 的 。 约 有 
80% 的 数据 为 “良品 ”， 其 余 为 “不 良品 ”。 预 测 模型 由 于 不 能 清晰 地 识别 出 “不 良品 ” 
的 样本 ,所 以 FPR 没有 达到 较 高 。 而 训练 偏向 于 “良品 ”的 样本 ,因此 该 模型 在 预测 “ 良 
品 ” 方 面 做 得 相当 好 ， 但 在 正确 预测 “不 良品 ”的 样本 时 却 没 能 很 好 地 预测 。 

以 下 代码 显示 整个 数据 集中 “良品 ”和 “不 良品 ”质量 样本 的 分 布 情况 : 


tapply (data$Detergent Quality,data$Detergent Quality,1length) 


Bad Good 
225 715 


#We can see only ~20% of the data belongs to "Bad" samples. 
(可 以 发 现 约 20% 的 数据 都 属于 “不 良品 ”样本 ) 


有 一 个 方法 可 以 去 尝试 解决 这 个 问题 ， 即 采取 过 抽样 法 或 者 分 层 平衡 抽样 法 进行 训 
练 。 假 阳性 (FP) 高 和 真 阴 性 (TN) 低 的 问题 可 能 出 自 对 “良品 ”样本 的 倾斜 训练 。 可 
以 给 Logistic 回归 模型 提供 一 个 分 层 的 训练 样本 ， 而 不 是 提供 现 有 的 80% 训 练 样本 ， 然 
后 观察 结果 是 否 有 任何 区 别 。 

新 的 分 层 训 练 样本 拥有 50% 的 “良品 ”和 50% 的 “不 良品 ”的 样本 。 以 下 代码 从 现 
有 训练 样本 中 创建 分 层 训练 样本 。 一 旦 新 模型 拟 合 ， 将 使 用 相同 的 旧 测 试 集 验 证 结果 。 


#Function to create a stratified sample 


(创建 分 层 样 本 的 函数 ) 
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#Here, df = Dataframe, 
(QA, af 
#group = The variable on which stratification needs to be done. 
(group = 需要 分 层 的 变量 ) 

#maximum number of sample for each level in group 


(组 中 每 个 层级 的 最 大 样本 数 ) 


Dataframe) 


stratified = function(df, group, size) { 
require (sampling) 
temp = df[order (df [group]),] 
if (size « 1) ( 
size = ceiling(table(temp[group]) * size) 
) else if (size »- 1) ( 


size = rep(size, times-length (table (temp [group]))) 


strat = strata(temp, stratanames = names (temp[group]l), 
size = size, method = "srswor") 


(dsample = getdata(temp, strat)) 


fCounting the number of "Good" and "Bad" rows in the data 

(计算 数据 中 “良品 ”和 “不 良品 ”的 行 数 》 

a<-tapply (train$Detergent Quality,train$Detergent Quality, length) 
size«-a["Bad"] 


print (size) 


#We create a new training sample, with the same number of "Good" and "Bad" 


Quality samples. 
(创建 一 个 新 训练 样本 ， 这 个 新 样本 含有 相同 数量 的 “良品 ”和 “不 良品 ”质量 样本 ) 


stratified train«-stratified(train,"Detergent Quality",size) 


#Checking the frequency of Good and Bad samples 
(检查 “良品 ”和 “不 良品 ”样本 的 频率 ) 
summary (stratified train$Detergent Quality) 


Bad | Good 
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T5 175 


#Fitting the model on the new stratified Training sample 


(在 新 的 分 层 训 练 样本 上 拟 合 模型 ) 


#Ignoring the codes to fit 
(忽略 代码 以 拟 合 》 


#Ignoring the codes to fit 
(打印 摘要 ) 


> summary (fit) 


Call: 

glim(formula = Detergent Quality ~ Quantity Deviation new + AssemblyLine ID + 
Stagei PrevProdüct 1 + Stagel RMi OParameter2 + Stagei RM1 QParameteri + 
Stagei RM? QOParameter2 + Stagel RM2 QParameterl + Stage3 RM2 QParameteri 
Stage3 RM3 OParameteri + Stagel RM1 QParameter2 * Stage3 RM3 QParameteri 
Stagei RM2 QParameter2 * Stages RM2 QParameterl + Stagel RM2 QParameteri 
Stage3 RM2 QParameteri + Stages RM1 OParameterl * Stagel RM2 OParameteri 
Stage3 ResourceName new + Stagel ProductChange Flag. family = "binomial", 
data - stratified train) 


Deviance Residuals: 
Min 10 Median 3Q Max 
-3.1899 -0.6528 -0.0746 0.1756 2.2304 


Coefficients: 

Estimate Std. Error z value Pr(>|zl) 
(Intercept) 493. 706052 217.491971 2.270 0.02321 
Quantity Deviation newLow 0.456392 0.395030 1.155 0.24795 
Quantity Deviation newMedium -0.020023 0.494143 -0.041 0.96768 
AssemblyLine IDLine 2 -0.553821 0.449905 -1.231 0.21833 
Stagel PrevProduct 1Product 545 -0.681547 . 0.594820 -1.146 0.25188 
Stagel RMi QParameter2 -9.039760 5.801280 -1.558 0.11318 
Stagel RMi QParameterl 0. 001025 0. 001226 0.835 0.40350 
Stagel RM2 QParameter2 6.856833 2.551667 2.687 0.00721 
Stagel RM2 QParameterl -5.203091 1.999460 -2.602 0.00926 
Stage3 RM2 QParameterl -0.871920 0.530776 -1.643 0.10044 
Stagei; RM3 OParameterl -4.308830 2.802132 -1.538 0.12412 
Stages; RMi QParameterl 0.166045 — 1.192918 0.139 0.88930 
Stage3 ResourceName newResource 108 -1.105921 0.568190 -1.946 0.05161 
Stagei ResourceName newResource 109 -0.894735 0.616154 -1.452 0.14647 
Stagel_Productchange_ FlagYes -0.185957 0.645186 -0.288 0.77318 
Stagel RM1_0Parameter2:Stage3_RM3_0Parameteri 1.214459 0.821106 1.479 0.13913 
Stagel RM2 QParameter2:Stage3 RM2 OParameteri -0.011976 0.004447 -2.693 0.00707 
Stagel RM2 OParameterl:Stage3 RM2 OParameteri 0.009651 0.004338 2.225 0.02609 
Stagel RM2 QParameterl:Stage3 RM1 OParameteri -0.001565 0.007849 -0.199 0.84194 


Signif. codes: 0 '*+e? 0.001 ie 0.01 '*' Q.05 4 0.151 
(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 485.20 on 349 degrees of freedom 


Residual deviance: 247.26 on 331 degrees of freedom 
AIC: 285,26 


Number of Fisher Scoring iterations: 8| 
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> prediction summary (fit,test) 


[1] "Distribution of Probability" 


[1] 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
0.01273 0.22640 0.49960 0.58490 0.99580 1.00000 


[1] "Confusion Matrix :-" 
predicted 
actuals Bad Good 
Bad 49 1 
Good 52 98 


[1] 

[1] "Overall_accuracy -> 0.735" 

[1] "TPR -> 0.653333333333333" 

[1] "TNR -» 0.98" 

[IIS EPEX-»072027 

模型 摘要 看 起 来 差不多 ， 除 了 AIC 和 残 差 偏差 之 外 ， 这 两 者 的 差异 很 大 。 结 果 似乎 
有 了 很 大 的 改进 。 但 是 当 观 察 预测 摘要 时 ， 却 会 大 吃 一 惊 。 

总 体 精度 提高 了 一 小 部 分 ，TPR 下 降 了 一 定 幅 度 ， 但 TNR 几乎 达到 了 100%，FPR 
达到 了 0.02。 结 果 看 起 来 十 分 令 人 惊喜 。 

7. 刚刚 发 生 了 什么 

之 前 的 模型 是 在 “良品 ”和 “不 良品 ”样本 (80 : 20) 的 倾斜 样本 分 布 上 进行 训练 
的 。 模 型 从 这 些 数据 中 学 会 了 如 何 很 好 地 预测 “良品 ”样本 ， 但 是 却 很 难 预测 “不 良品 ” 
样本 。 这 表明 对 模型 学 习 限 制 的 理解 是 正确 的 。 由 于 “良品 ”的 倾斜 训练 样本 ， 模 型 没 
法 很 容易 地 学 习 “ 不 良品 ”的 模式 。 通 过 分 层 样本 ， 可 以 看 到 结果 有 很 大 差异 。 该 模型 
这 时 能 够 正确 预测 几乎 100% 的 “不 良品 ”质量 样本 。 然 而 ， 还 有 一 个 大 问题 是 ， 还 不 能 
判断 上 面 得 出 的 结果 就 是 更 好 的 ， 因 为 TPR 有 很 大 的 下 降 。 此 外 ， 结 果 可 能 是 过 拟 合 。 
如 果 采 用 不 同 的 测试 样本 进行 模型 迭代 ， 可 能 会 发 现 不 同 的 结果 。 和 暂时 将 过 拟 合 问题 搁 
置 一 旁 ， 留待 第 5 章 学 习 。 现在 需要 提高 TNR 和 总 体 精度 ， 同 时 使 TPR 保持 完好 或 至 少 
良好 。 目 前 的 模型 迭代 已 经 提高 了 总 体 精 度 和 TNR， 但 是 在 TPR 方面 却 牺牲 了 不 少 。 
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8. 在 保持 TPR 完好 的 同时 ， 还 可 以 采取 哪些 措施 来 提高 TNR 和 总 体 精 度 

使 用 分 层 训练 样本 帮助 改进 了 TNR, 但 是 还 要 实现 高 TNR 和 高 TPR。 我 们 模型 需要 
更 直观 地 学 习 “ 不 良品 ”样本 的 细微 差别 。 分 层 有 帮助 ， 但 还 不 够 。 还 能 让 模型 更 好 地 
学 习 预 测 “ 不 良品 ”和 “良品 ”， 而 不 会 损害 TPR 和 拟 合 优 度 吗 ? 此 时 ， 迈 入 机 器 学 习 
的 时 机 到 了 。 通 过 机 器 学 习 ， 会 发 现 各 种 更 尖端 和 更 先进 的 算法 ， 可 以 帮助 取得 更 好 的 
结果 。 接 下 来 将 在 第 5 章 探索 一 些 有 趣 的 技术 。 
O +s: 

当然 ,只 需 再 多 付出 一 些 努力 ,还 可 以 在 Logistic 回归 中 应 用 其 他 方法 做 出 一 些 改进 。 
这 就 需要 更 深入 地 探索 正则 化 ， 并 为 之 付出 辛勤 的 努力 。 可 是 ，Logistic 回归 中 的 正则 化 
主题 非常 广泛 ， 本 书 难 以 在 一 个 章节 的 一 小 节 内 容 中 充分 讨论 这 个 主题 。 


45 小 结 


在 本 章 中 ， 通 过 尝试 回答 “ 何 时 ”这 个 问题 ， 提 出 了 解决 问题 的 技巧 。 为 了 给 约翰 
团队 提供 一 个 更 加 强大 和 可 行 的 解决 方案 , 我 方 团队 对 数据 科学 的 预测 性 分 析 进 行 探究 。 
之 后 分 析 了 这 个 问题 ， 发 现 可 用 两 种 不 同 的 方法 来 解决 同样 的 问题 一 一 一 个 是 回归 问题 
(预测 一 个 连续 结果 ) ， 另 一 个 是 分 类 问题 (预测 一 个 分 类 结果 ) 。 于 是 从 解决 问题 开 
始 , 在 生产 前 预测 洗涤 剂 的 成 品质 量 参数 。 期 间 应 用 线性 回归 分 析 ， 并 且 也 用 CART( 即 
决策 树 ) 对 同一 问题 进行 了 相同 的 实验 。 不 仅 详细 了 解 了 算法 的 功能 (无须 深入 研究 数 
学 方面 的 知识 ) ， 还 尝试 使 用 各 种 技术 来 提高 准确 度 ， 但 没有 取得 比较 有 利 的 结果 。 

随后 尝试 了 男 一 种 方法 。 在 这 种 方法 中 ， 以 一 种 新 的 方式 解析 了 相同 的 问题 ， 然 后 
改变 了 问题 陈述 〈 即 分 类 ) 的 整体 类 型 。 同 时 ， 试 着 采用 非常 有 名 且 易 于 实现 的 统计 技 
术 Logistic 回归 来 解决 这 个 问题 。 在 这 里 探 明 了 算法 的 细微 差别 ， 掌 握 如 何 使 用 R 语言 
来 解释 结果 。 接 着 尝试 了 各 种 迭代 来 改进 结果 ， 并 且 最 终 获 得 了 一 些 让 人 充满 希望 的 信 
息 。 可 是 ， 依 然 没 有 取得 更 好 的 结果 ， 但 是 看 到 了 一 线 希 望 ， 还 可 以 继续 努力 。 为 了 进 
一 步 改进 结果 ， 须 用 更 强大 的 算法 来 学 习 洪 在 的 信息 并 给 出 更 准确 的 结果 。 为 了 实现 这 
一 点 ， 本 书 会 在 第 5 章 中 采用 一 些 机 器 学 习 技术 。 我 方 将 努力 为 约翰 团队 构建 一 个 有 价 
值 的 、 可 行 的 解决 方案 ， 并 对 生产 公司 产生 一 些 影响 力 。 

第 5 章 ， 重 点 讨论 能 够 将 结果 准确 度 提升 更 高 的 尖端 机 器 学 习 算法 。 通 过 机 器 学 习 ， 
将 把 决策 科学 和 分 析 技 能 提高 到 一 个 更 加 精湛 的 水 平 。 
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预测 性 分 析 是 一 个 十 分 广泛 且 变化 多 样 的 领域 。 许 多 模棱两可 的 热 词 和 学 科 都 与 这 
个 领域 有 着 千 丝 万 缕 的 联系 。 统 计 建 模 、 机 器 学 习 、 人 工 智能 、 神 经 网 络 、 深 度 学 习 、 
认 知 计算 等 不 一 而 足 。 这 些 学 科 的 各 种 定义 让 人 们 很 难 分 辨 它们 之 间 的 相似 点 和 不 同 点 。 
本 书 最 初 的 练习 与 统计 建 模 相 一 致 ， 而 现在 将 更 多 地 关注 机 器 学 习 。 这 两 者 之 间 的 差异 
主要 是 因为 它们 起 源 于 不 同 的 学 派 。 统 计 建 模 出 自 数学 学 派 ， 而 机 器 学 习 则 由 计算 机 科 
学 发 展 而 来 。 

在 本 章 中 ， 采 用 尖端 的 机 器 学 习 算法 以 提高 预测 性 分 析 技 能 ， 这 将 有 助 于 更 好 地 预 
测 准确 度 。 从 开始 解决 问题 的 那 一 刻 起 ， 我 们 在 解决 方案 方面 已 取得 了 渐进 式 的 进展 ， 
但 是 该 解决 方案 还 没有 达到 一 定 的 成 熟 水 平 ， 还 未 能 让 约翰 团队 能 够 根据 方案 即刻 采取 
行动 。 本 章 的 重点 立足 于 把 解决 方案 变 得 日 臻 成熟， 以 便 帮 助 约翰 团队 更 好 地 解决 问题 ， 
为 他 们 〈 企 业 ) 增加 价值 。 本 章 涵盖 的 主题 如 下 : 

Q 机 器 学 习 简介 。 

Q 集成 建 模 一 一 随机 森林 。 

O 集成 建 模 一 一 XGBoost。 

OQ ”神经 网 络 和 深度 学 习 。 


机 器 学 习 在 业内 并 不 是 一 个 非常 明确 的 术语 。 许 多 教科 书 和 各 种 电子 资源 对 机 器 学 
习 有 着 各 式 各 样 的 定义 。 人 们 对 统计 建 模 和 机 器 学 习 之 间 的 一 般 差 别 一 直 热 议 不 已 ， 但 
是 这 个 差别 仍然 是 一 个 异常 模糊 的 术语 。 从 较 高 层面 上 ， 可 将 机 器 学 习 视 为 决策 科学 预 
测 堆栈 中 的 一 个 高 级 层 ， 而 且 这 个 领域 采用 了 更 强大 的 算法 和 技术 ， 运 用 数据 学 习 模 式 
和 关系 去 预测 结果 。 

下 面 通过 使 用 统计 建 模 开始 预测 性 分 析 的 学 习 。 前 面 已 经 掌握 了 如 何 实施 和 应 用 各 
种 统计 模型 ， 如 线性 回归 、 逻 辑 回 归 和 决策 树 。 此 时 ， 尝 试 采用 更 先进 的 算法 来 解决 同 
样 的 问题 ， 这 将 会 带 来 更 好 的 结果 。 在 开始 之 前 ， 仍 然 想 知 道 ， 什么 是 机 器 学 习 ? 它 与 
统计 建 模 有 什么 不 同 ? 


“170。 当 大 数据 遇见 物 联网 一 一 智能 决策 解决 之 道 


一 言 概 之 ， 机 器 学 习 可 被 定义 为 从 数据 中 学 习 却 又 不 依赖 于 基于 规则 的 编程 的 一 种 
算法 ， 而 统计 建 模 可 被 定义 为 以 数学 方程 式 为 基础 的 变量 之 间 的 一 种 关系 形式 。 与 统计 
建 模 相 比 ， 机 器 学 习 的 规则 更 加 宽松 。 在 机 器 学 习 中 ， 对 基础 数据 的 假设 相对 较 少 (之 
前 的 练习 中 没有 把 重点 放 在 关于 数据 的 假设 上 ) o 
而 且 ， 机 器 学 习 在 利用 不 断 增加 的 数据 量 进行 学 习 的 方面 也 是 相当 强大 的 。 但 是 ， 
统计 模型 的 学 习 会 达到 一 定 的 饱和 。 举 一 个 简单 的 例子 来 更 清楚 地 理解 这 一 点 。 比 如 已 
] 1000 个 训练 样本 建立 了 一 个 模型 (假设 1000 个 模型 足以 用 于 模型 学 习 ) ， 并 且 在 分 
类 方案 中 获得 了 大 约 60% 的 总 体 精度 。 如 果 增 加 更 多 的 训练 样本 , 即 2000 个 而 不 是 1000 
个 ,在 大 多 数 情况 下 ,通常 期 望 可 以 获得 的 准确 度 比 以 前 更 好 。 假 设 整 体 的 改进 是 3% 左 
右 。 统 计 模型 的 问题 在 于 ， 这 种 改进 不 能 随 着 越 来 越 多 的 训练 样本 的 增加 而 扩大 。 假 设 
采用 10000 个 训练 样本 获得 了 最 好 的 结果 ， 那 么 如 果 向 训练 集中 再 添加 10000 个 样本 ， 
总 体 精度 几乎 不 会 再 提高 。 这 就 是 所 说 的 模型 达到 了 学 习 饱 和 度 。 此 情况 并 非 是 通过 数 
学 来 证 明 的 结果 ， 而 是 在 建 模 时 普遍 观察 得 来 的 。 然 而 ， 机 器 学 习 技 术 在 利用 大 型 数据 
集 来 改进 预测 的 方面 要 好 得 多 。 与 统计 模型 相 比 ， 在 相当 大 的 程度 上 ， 我 们 增加 了 训练 
数据 量 后 ， 能 够 观察 到 更 好 的 结果 的 可 能 性 就 会 非常 高 。 

机 器 学 习 和 统计 中 有 一 个 特殊 领域 是 集成 建 模 ， 即 一 种 利用 多 种 学 习 算 法 获得 更 好 
的 预测 性 能 的 技术 。 机 器 学 习 技术 提高 准确 度 的 一 个 主要 原因 在 于 它 在 集成 建 模 的 过 程 
中 采用 越 来 越 多 的 训练 样本 。 下 面 进一步 探讨 集成 建 模 。 


51.1 什么 是 集成 建 模 


集成 是 一 种 将 多 个 弱 学习 器 / 弱 模型 组 合 起 来 ， 形 成 一 个 强大 的 学 习 器 的 学 习 技 术 。 
简 而 言 之 ， 就 是 构建 多 个 模型 ， 然 后 将 所 有 模型 的 结果 用 算法 组 合 以 获得 更 好 的 结果 。 
有 一 个 集成 模型 的 简单 例子 ， 即 随机 森林 算法 〈 它 含有 多 个 CART 模型 。 本 书 将 在 下 一 
节 中 探讨 更 多 的 内 容 ) 。 与 一 个 单独 的 CART 或 决策 树 模型 相 比 ， 随 机 森林 的 性 能 要 好 
得 多 。 该 算法 将 一 个 新 对 象 分 类 ， 其 中 每 棵 树 为 该 类 提供 “投票 ”机 制 ， 并 且 随 机 森林 
选择 〈 在 森林 中 的 所 有 树木 中 ) 具有 最 多 票数 的 分 类 。 在 回归 的 情况 下 ， 它 取 不 同 树 的 
输出 的 平均 数 。 


5.1.2 为 什么 要 选择 集成 模型 


人 们 在 现实 生活 中 经 常 看 到 ， 与 个 人 相 比 ， 一 群 人 更 有 可 能 做 出 更 好 的 决策 ， 特 别 
当 小 组 成 员 拥 有 各 种 不 同 背 景 时 。 这 个 比喻 也 适用 于 机 器 学 习 。 一 个 集成 基本 上 是 将 


| 


Ru 
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多 个 弱 学 习 器 / 弱 模型 组 合 起 来 以 生成 一 个 强 学 习 器 。 通 过 Bootstrap HBA) ， 即 随机 
抽样 蔡 换 的 过 程 ， 将 多 样 性 引入 每 个 模型 中 。 一 般 而 言 ， 它 会 将 一 个 不 同 的 样本 提供 给 
每 个 模型 用 以 训练 。 因 此 ， 每 个 模型 的 学 习 方 式 稍 有 不 同 ， 从 而 减少 方差 误差 。 

集成 建 模 的 主要 好 处 如 下 : 

Q 改进 预测 。 

ü “提高 模型 的 稳定 性 。 

许多 弱 学 习 器 组 合 在 一 起 时 ， 大 多 数 情况 下 都 能 比 一 个 强大 的 模型 提供 更 为 准确 的 结 
果 。 其 次 , 通过 Bootstrap 聚合 法 一 采用 随机 样本 蔡 换 的 方式 给 每 个 模型 引入 多 样 性 一 一 
有 助 于 在 很 大 程度 上 降低 噪声 并 提高 模型 的 泛 化 能 力 。 有 了 更 好 的 泛 化 能 力 ， 集 成 模型 
的 结果 就 有 助 于 提供 更 高 的 准确 度 和 更 高 的 稳定 性 。 


5.1.3 一 个 集成 模型 究竟 是 如 何 工作 的 


从 理论 上 而 言 ， 可 以 为 完全 异 构 的 同一 个 任务 创建 一 个 集成 〈 即 多 个 模型 ) ， 比 如 
一 组 分 类 树 和 Logistic 回归 模型 或 者 其 他 一 些 技术 。 然 而 ， 大 多 数 情 况 下 ， 应 用 相同 的 技 
术 类 型 来 开发 一 个 集成 ， 比 如 只 有 分 类 树 的 集成 或 者 只 有 Logistic 回归 模型 的 集成 。 可 以 
决定 计划 创建 的 模型 数量 ， 再 采用 某 种 方法 〈 主 要 是 投票 ) 将 每 个 模型 的 结果 组 合 起 来 。 

比如 当前 面临 的 情况 是 ， 需 要 构建 一 个 使 用 1000 个 训练 样本 的 分 类 模型 。 那 么 构建 
100 个 相同 类 型 的 模型 (如 分 类 树 ) ， 而 不 是 只 建立 一 个 模型 。 首 先 ，Bootstrap 聚合 过 
程 采用 随机 选择 蔡 换 的 方式 从 1000 个 训练 样本 中 创建 100 个 训练 集 。 每 个 训练 集 可 以 创 
建 原始 数据 量 的 大 约 60% 数 据 ( 这 不 是 一 个 固定 的 数字 ， 可 由 用 户 自 定义 ) 。 因 此 ， 将 
获得 100 个 不 同 的 训练 集 ， 每 个 训练 集 含 有 大 约 600 个 训练 样本 。 然 后 ， 可 使 用 分 配给 
相应 模型 的 训练 集 建立 100 个 模型 。 采 用 Bootstrap 训练 集 构建 的 每 个 模型 ， 在 构建 树 的 
方式 上 会 发 生 微小 的 变化 。 整 个 过 程 与 第 4 章 讨论 的 完全 一 样 ， 但 由 于 每 棵 树 的 训练 数 
据 略 有 不 同 ， 每 棵 树 的 总 体 结构 也 会 有 细微 的 差别 。 

在 所 有 模型 建立 之 后 ， 可 用 它们 对 测试 样本 进行 分 类 。 每 个 测试 将 会 获得 100 个 结 
果 ， 而 不 是 一 个 ， 然 后 用 投票 机 制 将 这 些 结果 组 合 。 假 设想 对 一 个 测试 用 例 进行 分 类 以 
获得 “良品 ”或 “不 良品 ”的 分 类 结果 ， 而 且 在 测试 时 采用 了 前 面 所 构建 的 100 TRE, 
那么 结果 就 会 得 到 了 70 棵 含有 结果 为 “良品 ”的 树 ， 剩 下 为 20 棵 " 则 为 含有 “不 良品 ” 
的 树 。 于 是 可 以 肯定 地 得 出 结论 ， 测 试用 例 的 最 终 质量 是 “良品 ”。 一 般 的 投票 算法 将 


O 此 处 应 为 30 棵 ， 似 为 作者 笔 误 。 一 一 译 者 注 
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获得 最 大 投票 结果 作为 最 终结 果 。 如 果 是 回归 分 析 ， 需 要 预测 一 个 连续 结果 ， 将 所 有 模型 


结果 进行 平均 才 给 出 最 终 答 案 。 这 个 过 程 也 可 以 称 为 Bagging ( 装 袋 法 ) 。 整个 过 程 如 图 ”5.1 
所 示 。 


Bagging 


Bootstrap 
训练 集 NAI 


分 类 器 N-1 


图 5.1 


在 某 些 情况 下 ， 还 另 有 一 种 用 于 集成 建 模 的 技术 ， 称 为 Boosting GENA) 。 与 
Bagging 不 同 , 这 个 Boosting 过 程 是 迭代 式 地 工作 并 改进 每 个 模型 ,以 更 好 的 方式 学 习 以 
前 误 分 类 的 样本 。 在 Boosting 过 程 中 ， 并 不 是 并 行 构建 所 有 模型 ， 而 是 迭代 式 地 建 模 。 
第 一 个 模型 是 使 用 整个 训练 数据 构建 的 ， 而 下 一 个 模型 在 随机 样本 和 加 权 训练 集 上 运行 。 
加 权 是 这 样 进行 的 ， 之 前 模型 的 错误 分 类 样本 被 赋予 一 个 额外 的 权重 ， 以 便 模型 能 够 更 
好 地 预测 错误 分 类 的 样本 。 该 过 程 继续 进行 并 人 迭 代 一 定 次 数 。 理 想 的 结果 模型 将 具有 最 
低 的 误 分 类 率 。 全 球 各 地 的 统计 人 员 开 发 了 多 种 增强 算法 。 其 中 大 部 分 算法 的 差异 在 于 
计算 误 分 类 事例 所 占 权 重 的 方法 。Boosting 整个 过 程 如 图 5.2 所 示 。 

此 外 ， 男 一 种 构建 一 个 集成 模型 的 方法 是 Stacking SIME) . Stacking 过 程 与 
Boosting 非常 相似 。 刚 开始 ， 这 个 算法 采用 可 用 数据 训练 模型 ， 然 后 训练 一 个 组 合 器 模 
型 ， 以 使 用 其 他 模型 的 所 有 预测 作为 额外 输入 来 进行 最 终 预 测 。 


9 图 中 最 右 端 的 “Bootstrap 训练 集 1” 疑 应 为 “Bootstrap 训练 集 N”， 似 为 作者 笔 误 。 一 一 译 者 注 
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Boosting 


图 5.2 

1. 不 同 的 集成 学 习 技术 有 了 哪些 

目前 有 许多 流行 的 集成 技术 用 于 分 类 和 回归 。 

O Bagging: Bagging 和 随机 森林 。 

O Boosting: Adaboost、 梯 度 提升 机 和 XGBoost。 

最 流行 的 是 随机 森林 和 XGBoost。 随 机 森林 基本 上 是 Bagging 的 高 级 版 本 ， 而 
XGBoost 则 基于 Boosting 的 原理 , 并 且 是 梯度 提升 机 Gradient Boosted Machines, GBM) 
的 高 级 版 本 。 两 者 均 已 被 广泛 应 用 于 工业 领域 的 各 种 用 例 中 ， 并 在 准确 度 和 稳定 性 方面 
获得 了 更 好 的 结果 。 

本 章 随 后 将 学 习 和 实施 使 用 随机 森林 和 XGBoost 来 预测 建 模 。 

2. 快速 回顾 一 一 前 面 分 析 到 了 哪个 阶段 

在 第 4 章 中 ， 尝 试 使 用 Logisite 回归 构建 分 类 模型 。 在 一 系列 实验 中 , 采用 了 分 层 平 
衡 训练 样本 来 增加 TNR〈 即 真 阴性 率 ) 。 我 方 团 队 的 确 达 到 了 这 一 目标 ， 但 却 以 较 低 的 
TPR《〈 即 真 阳性 率 ) 为 代价 才能 实现 。 还 需要 通过 增加 TNR 和 TPR 来 改进 结果 ， 从 而 提 
高 总 体 精度 。 在 本 章 中 ， 将 通过 在 集成 建 模 中 学 习 和 实施 两 种 非常 流行 的 机 器 学 习 技术 ， 
将 预测 性 分 析 技 能 再 往 上 提高 。 
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52. 集成 建 模 一 一 随机 森林 


随机 森林 是 一 种 十 分 流行 的 机 器 学 习 技 术 ， 主 要 用 于 分 类 和 回归 。 在 使 用 该 算法 构 
建 了 多 棵 决策 树 时 ， 至 此 本 书 已 经 涵盖 了 学 习 随机 森林 所 需 的 大 部 分 基础 。 接 下 来 快速 
地 了 解 算 法 ， 以 便 更 好 地 解决 之 前 的 问题 。 


5.2.1 什么 是 随机 森林 


随机 森林 是 一 种 基于 集成 建 模 原理 的 机 器 学 习 技术 。 它 构建 了 一 个 由 多 棵 决策 树 组 
成 的 集成 ， 每 棵 树 都 有 一 个 随机 选择 的 特征 子 集 ， 由 此 而 命名 “随机 ” +“ 森林 ”。 随 机 
森林 基本 上 是 Bagging 算法 的 高 级 版 本 。 在 Bagging 过 程 中 , 使 用 从 整个 训练 集中 通过 从 
换 选 择 得 出 的 一 个 Bootstrap 训练 样本 ， 以 构造 出 多 棵 决策 树 。 在 随机 森林 中 ， 随 机 性 的 
增加 更 进一步 。 在 这 里 ， 从 整个 特征 列表 中 ， 只 为 每 棵 树 随机 地 选择 已 具有 预定 义 数量 
的 特征 。 假 设 总 共有 15 个 特征 ， 那 么 将 为 每 棵 树 随 机 分 配 选择 5 个 或 6 个 〈 一 个 固定 的 
预定 义 数量 ) 特征 , 以 及 由 蔡 换 选择 得 出 的 一 个 Bootstrap 训练 样本 。 与 决策 树 和 Bagging 
算法 相 比 ， 每 棵 树 的 特征 的 随机 性 增加 可 帮助 随机 森林 获得 更 好 的 稳定 性 。 

与 特征 相关 的 新 随机 性 以 及 训练 样本 ， 有 助 于 随机 森林 算法 生成 更 强大 的 结果 ， 并 
以 最 有 效 的 方式 利用 过 剩 的 训练 数据 。 该 算法 的 关键 部 分 在 于 通过 构建 多 棵 决策 树 以 形 
成 一 个 森林 。 构 建 决策 树 的 过 程 与 第 4 章 “ 预 测 性 分 析 在 物 联网 中 的 应 用 ”中 所 讨论 的 
完全 相同 。 一 旦 对 所 有 树木 都 使 用 它们 各 自 的 特征 和 训练 样本 进行 训练 ， 就 能 够 预测 n 
棵 树 的 结果 ， 而 不 是 一 棵 树 On 是 在 森林 中 构建 的 树 的 数量 ， 即 一 个 有 限 的 数量 ) 。 为 了 
获得 最 终 的 结果 ，n 棵 树 的 结果 通过 多 数 投票 机 制 转换 为 单个 结果 。 

接着 ， 来 探究 一 棵 分 类 树 是 如 何 通过 随机 森林 算法 构建 的 。 顺 便 提 一 下 ， 在 一 般 情 
况 下 和 在 随机 森林 算法 中 ， 构 建 分 类 树 的 方式 没有 区 别 。 一 言 概 之 ， 除 了 选择 根 节 点 和 
随后 的 决策 节点 之 外 ， 整 个 过 程 与 对 回归 树 研究 的 过 程 完全 相同 。 在 第 4 章 中 ， 详 细 探 
讨 了 在 CART 中 如 何 构 建 回 归 树 。 它 计算 所 有 特征 相对 于 因 变 量 的 标准 差 减 少 (SDR) 。 
选择 具有 最 大 SDR 的 特征 为 根 节点 ， 而 具有 次 最 高 SDR 的 特征 作为 下 一 个 节点 ， 依 此 
类 推 。 对 于 分 类 树 ， 因 为 因 变量 是 类 别 型 的 ， 不 能 计算 SDR。 相 反 ， 计 算 米 和 每 个 特征 
相对 于 因 变 量 的 信息 增益 。 选 择 相对 于 因 变 量具 有 最 大 信息 增益 的 特征 作为 根 节 点 。 
如 前 所 述 ， 决 策 树 是 从 根 节点 自 上 而 下 构建 的 ， 涉 及 将 数据 划分 为 包含 具有 相似 值 
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( 同 质 的 ) 的 实例 的 子 集 。 该 算法 使 用 炉 来 计算 样本 的 同 质 性 。 如 果 样 本 是 完全 同 质 的 
则 炉 是 零 。 如 果 样 本 均匀 等 分 ， 则 炳 为 1。 

紧 接着 详细 了 解 如 何 选择 根 节点 和 其 他 节点 来 构建 分 类 树 。 

比如 下 面 的 示例 数据 集 〈 见 表 5.1) 。 它 类 似 于 在 第 4 章 “ 预 测 性 分 析 在 物 联 网 中 的 
应 用 ”回归 树 中 所 举 的 例子 。 但 是 差异 在 于 因 变 量 。 在 这 里 的 因 变 量 是 类 别 型 的 ， 即 含 
有 两 个 层级 的 “员工 类 型 ”一 一 技术 人 员 和 管理 人 员 : 


表 5.1 示例 数据 集 


HR 列 号 着 装 标 准 tk a 员工 类 型 
1 正装 男 技术 人 员 
2 商务 休闲 2 管理 人 员 
3 休闲 男 技术 人 员 
4 正装 女 管理 人 员 
5 商务 休闲 女 技术 人 员 
6 休闲 男 管理 人 员 
100 休闲 男 技术 人 员 


为 了 构建 决策 树 ， 需 要 计算 两 种 类 型 的 焙 一 一 一 个 因 变量 的 米 和 每 个 自 变量 相对 于 
因 变量 的 粹 。 可 应 用 频率 表 来 达到 这 个 目的 。 
Q E — ^ STET R: 
E(S) - Y. .-p,log, p, 
这 里 ，c 是 一 个 变量 中 不 同类 的 数量 。 
比如 员工 类 型 在 整个 数据 集中 的 分 布 ， 如 表 5.2 所 示 。 
R52 员工 分 布 


x 


员工 类 型 mox 
技术 人 员 073 
管理 人 员 027 


那么 ， 可 以 计算 一 个 因 变 量 的 粹 如 下 : 

E( 员 工 类 型 上 E(27,73) 
= -0.27x10g;0.27-0.73x10g;0.73 
= -(- 0.51)-(- 0.33)- 0.84 
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同样 地 ， 为 了 计算 一 个 特征 变量 相对 于 该 因 变 量 的 炉 ， 假 设 下 面 的 员工 类 型 分 布 在 
“着 装 标准 ”变量 中 〈 见 表 5.3) 。 


表 5.3 员工 类 型 分 布 


技术 人 员 管理 人 员 


然后 ， 计 算 该 特征 变量 的 粹 如 下 : 
E( 员 工 类 型 ,着 装 标准 ) 
= (正式 )xE(10,14)+ P( 商 务 休闲 )xE(21,8)+ P( 休 闲 )xE(42,5) 
= 0.24x0.98 + 0.29x0.85 + 0.47x0.48 
-071 
获得 这 两 种 类 型 的 烂 后 ， 可 用 以 下 公式 来 计算 每 个 特征 的 信息 增益 ; 
Information Gain (Y,X) = Entropy(Y) = Entropy(Y,X) 

因此 ， 
Information Gain( 员 工 类 型 ,着 装 标准 ) 
= Entropy( 员 工 类 型 )-Entropy( 员 工 类 型 ,着 装 标准 ) 
= 0.84-0.71 = 0.13 
用 同样 的 方式 计算 所 有 其 他 特征 的 信息 增益 ， 将 相对 于 因 变 量 的 信息 增益 最 大 的 特 
征 选 为 根 节点 ， 将 下 一 个 最 高 特征 选 为 下 一 个 节点 ， 以 此 类 推 。 信息 增益 帮助 决策 树 确 
定 最 佳节 点 被 选 为 根 节点 和 后 继 决 策 节点 。 

分 类 树 的 整个 过 程 与 回归 树 仍 然 非常 相似 。 


5.2.2. ”如 何在 R 语言 中 构建 随机 森林 


R 语言 有 一 个 专门 为 随机 森林 算法 而 构建 的 软件 包 “randomforest”。 它 应 用 所 需 的 
函数 ， 仅 用 几 行 代码 就 能 构建 出 整个 模型 。 接 下 来 ， 通 过 构建 一 个 基本 的 随机 森林 模型 
来 掌握 一 些 诀窍 ， 后 面 再 继续 构建 更 好 的 和 改进 的 版 本 。 

采用 第 4 章 Logisitc 回归 练习 的 同一 个 训练 集 , 以 下 代码 为 这 个 训练 集 构建 了 一 个 随 
机 森林 模型 ， 并 显示 模型 的 摘要 。 请 仔细 观察 代码 和 结果 中 突出 显示 的 部 分 ”: 


”原文 中 作者 可 能 忘记 用 颜色 突出 显示 了 。 一 一 译 者 注 
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library (randomForest) 

set.seed(600) 

#Creating a 20$ sample for test and 80$ Train 

(创建 一 个 20s 测 试 样本 和 80% 训 练 样本 ) 

test index«-sample (1:nrow (data) , floor (nrow (data) *0.2)) 
train«-data[-test index,] 

test«-data[test index,] 


fBuilding a random forest model 
(构建 一 个 随机 森林 模型 ) 
fit<-randomForest (Detergent Quality~ 
#The Production Quantity deviation feature 


(生产 量 偏差 特征 ) 


Quantity Deviation new + 


#The Production Quantity deviation feature 
(生产 量 偏差 特征 ) 
Stagel PrevProduct 1 + 


#Raw Material Quality Parameters 
(原料 质量 参数 ) 

Stagel RM1 QParameter2 
Stagel RM1 QParameterl 
Stagel RM2 QParameter2 
Stagel RM2 QParameter1 
Stage3 RM1 QParameter1 
Stage3 RM1 QParameter2 
Stage3 RM2 QParameterl 
Stage3 RM3 QParameter2 
Stage3 RM3 QParameterl 


+ 二 十 十 二 二 二 十 十 


#Machine/Resources used in a Stage 
(一 个 阶段 中 使 用 的 机 器 /资源 ) 

Stage3 ResourceName new + 

Stagel ProductChange Flag, 
data-train, 


ntree-50,mtry-5,replace-TRUE, importance-TRUE 
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2 dp 

Call: 

randomForest(formula = Detergent Quality ~ Quantity Deviation new + 
Stagel PrevProduct 1 + Stagel RM1 QParameter2 + Stagel RM1 QParameterl + 
Stagel RM2 QParameter2 + Stagel RM2 QParameterl + Stage3 RM1 QParameterl + 
Stage3 RM1 QParameter2 + Stage3 RM2 QParameterl + Stage3 RM3 QParameter2 + 
Stage3 RM3 QParameterl + Stage3 ResourceName new + 

Stagel ProductChange Flag, data = train, ntree = 50, mtry = 5, replace 
= TRUE, importance = TRUE) 


Type of random forest : classification? 
Number of trees : 50 
No. of variables tried at each split? : 5 
OOB estimate of error rate 9: 16.25% 
Confusion matrixÓ: 
Bad Good  class.error9 
Bad 107 68 0.3885714 
Good 62 563 0.0992000 
接着 努力 去 理解 在 这 里 做 了 什么 。 大 部 分 代码 和 结果 看 起 来 都 差不多 。 下 面 逐 个 去 
观察 新 的 信息 。 


选择 软件 包 中 的 内 置 randomForest 函数 来 构建 模型 。 调 用 类 型 依然 不 变 。 然 而 ， 发 现 了 
一 些 之 前 没有 涉及 的 参数 , 即 ntree = 50, mtry = 5, replace = TRUE, 以 及 importance= TRUE. 


9 随机 森林 类 型 ， 分 类 。 一 一 译 者 注 

? 树 的 数量 。 一 一 译 者 注 

9 在 每 次 分 裂 中 尝试 的 变量 数量 。 一 一 译 者 注 

9 袋 外 误差 率 估计 一 一 译 者 注 

e 混淆 矩阵 一 一 译 者 注 

9 分 类 误差 ， 此 处 实 为 class eror rates 即 分 类 误差 率 。 一 一 译 者 注 
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1. 这 些 新 参数 是 什么 

随机 森林 从 较 高 的 层次 上 为 我 们 提供 了 一 个 选项 ， 不 仅 可 以 选择 想 要 在 集成 模型 中 
构建 的 决策 树 的 数量 ， 还 可 以 为 每 棵 树 预选 随机 选择 的 特征 的 数量 。 这 里 选择 了 5 个 ， 
也 就 是 mtry = 5。 如 果 要 赋予 mtry 超 参数 一 个 较 好 的 大 致 数量 ， 那 么 可 以 考虑 最 接近 特 
征 总 数 的 平方 根 的 整数 。 在 此 处 的 练习 中 ， 大 约 有 14 个 特征 和 1 个 因 变量 ， 所 以 ， 理 想 
情况 下 3 个 或 4 个 〈 特 征 ) 是 更 好 的 选择 。 可 用 试 错 法 来 选择 最 佳 值 ， 但 是 randomForest 
软件 包 在 内 部 提供 了 一 个 工具 , 可 供 选择 mtry 的 最 佳 值 。 不 久 将 会 探讨 这 个 问题 。 同 样 ， 
代码 中 新 增 的 超 参 数 还 有 replace = TRUE 和 importance = TRUE. 7E replace 选项 里 可 选 
择 是 否 应 该 进行 蔡 换 抽样 或 不 替换 抽样 。 有 一 个 经 验 法 则 是 ， 抽 样 时 替换 设置 为 TRUE 
总 是 好 的 。 在 大 多 数 情况 下 , 模型 必定 更 稳定 (也 有 些 情况 下 , 这 可 能 不 是 最 好 的 选择 ) 。 
importance = TRUE 参数 为 模型 中 使 用 的 每 个 特征 提供 了 重要 性 评分 (GINI 指数 以 及 平均 
精度 下 降 ?) 。 采 用 变量 importance， 可 让 我 们 能 够 更 容易 地 确定 哪些 特征 为 整个 模型 增 
加 了 更 多 的 价值 。 如 果 有 太 多 的 特征 ， 比 如 说 其 中 有 很 多 特征 几乎 没有 增加 任何 价值 ， 
可 使 用 变量 importance plot (这 是 randomForest 软件 包 提 供 的 函数 ) ， 将 变量 importance 
可 视 化 ， 从 而 更 好 地 决定 应 该 剔除 哪些 变量 。 

除了 在 前 面 的 模型 迭代 中 使 用 的 参数 之 外 , 还 有 一 些 参数 会 在 进一步 的 迭代 中 应 用 ， 
例如 bag fraction^, class weight 等 。 当 使 用 这 些 选 项 时 再 讨论 它们 。 还 有 更 多 的 参数 选 
项 可 供 选 用 ， 通 过 R help 命令 〈?randomforest) 即 可 探索 更 多 内 容 。 

接着 继续 解释 结果 摘要 。 第 一 部 分 显示 了 用 于 该 模型 的 calling style formula (调用 公 
式 类 型 ) 。 紧 接着 ， 有 一 个 声明 提 到 和 迭代 中 使 用 的 type of modeling 〈 建 模 类 型 ) 。 构 建 
中 的 模型 为 一 个 分 类 模型 ， 因 此 随机 森林 的 类 型 为 classification (分类) 。 接 下 来 ， 它 调 
出 模型 中 构建 的 number of trees〈 即 树 的 数量 ) 。 此 处 选 了 50 棵 树 ， 而 实际 上 还 可 以 选 
择 一 个 更 高 的 数字 。 但 因为 所 使 用 的 数据 集 相 当 小 ， 一 台 正 常 的 机 器 只 需 配 置 合适 的 内 
存 ， 就 能 够 很 轻松 地 处 理 这 个 数据 集 。 将 树 的 数量 设置 得 更 高 并 不 会 给 模型 的 准确 度 增 
加 一 个 同等 的 增 量 值 ， 不 过 如 果 给 模型 设置 大 约 1000—2000 棵 树 依然 可 行 。 这 里 发 现 结 
果 摘 要 中 给 出 了 number of variables (变量 的 数量 ) 为 5， 用 于 将 数据 分 割 至 每 棵 树 的 分 
区 。 最 后 ， 也 观察 到 模型 中 使 用 了 两 个 重要 的 度量 方法 ， 即 OOB estimate (OOB fiiit) 
和 根据 训练 集 上 的 预测 构建 的 confusion matrix (混淆 矩阵 ) 。OOB 估计 只 不 过 是 袋 外 ( 数 
据 ) 的 估计 。 随 机 抽样 替换 的 训练 集 大 约 有 2/3 的 数据 用 于 对 每 一 棵 树 进行 训练 。 剩 余 的 
1/3 数据 可 用 于 交叉 验证 。OOB 误差 估计 显示 了 在 内 部 对 所 有 树 进 行 交 叉 验 证 的 结果 。 


© 原文 Mean Decrease in accuracy, 7h Mean Decrease Accuracy (MDA)， 意 为 平均 精度 下 降 。 一 一 译 者 注 
o SH WERE 
° 类 权重 一 一 译 者 注 
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在 末尾 ， 还 看 到 了 混淆 矩阵 和 分 类 误差 率 (class error rates). 。 

Ce OOB 误 
差 估计 为 推断 模型 的 预测 能 力 提 供 了 一 个 合理 无 偏 的 指标 。 不 过 ， 这 需 试 着 检查 剩 下 的 
20% 数 据 的 测试 结果 。 

以 下 代码 是 与 第 4 章 中 构建 的 prediction summary 函数 类 似 的 prediction rf summary 
函数 。 唯 一 的 区 别 是 直接 取 预 测 〈 结 果 ) 而 不 是 预测 概率 ， 然 后 将 其 分 类 为 “良品 ”或 
“不 良品 ”。 该 函数 最 终 输出 迄今 为 止 使 用 的 参数 ， 即 总 体 精度 、 真 阳性 率 CIPRO 、 真 
阴性 率 (TNR) 和 假 阳性 率 (FPR) : 


prediction rf summary«-function(fit,test) 
i 
fPredicting results on the test data, using the fitted model 
(使 用 拟 合 的 模型 预测 测试 数据 的 结果 ) 
predicted<-predict (fit,newdata=test, type="response") 
actuals<-test$Detergent Quality 
confusion matrix<-table (actuals,predicted) 
print("Confusion Matrix :-") 
print (confusion matrix) 
print("") 
fCalcualting the different measures for Goodness of fit 
(计算 不 同 度量 用 于 拟 合 优 度 ) 
TP<-confusion matrix[2,2] 
FP<-confusion matrix[1,2] 
TN«-confusion matrix[1,1] 
FN«-confusion matrix[2,1] 
d$Calcualting all the required 
(计算 所 有 需要 的 ) 
print (paste ("Overall accuracy ->", (TP+TN)/sum(confusion matrix))) 
print (paste ("TPR -> ",TP/(TP*FN))) 
print (paste ("TNR -> ",TN/(TN4*FP))) 
print (paste ("FP -> ",FP/(TN*FP))) 


#Viewing the results together 
(查看 全 部 结果 ) 


>prediction rf summary (fit,test) 
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[1] "Confusion Matrix :-" 


predicted 

actuals Bad Good 
Bad 29 21 
Good 17 133 


[1] "n" 

[1] "Overall accuracy -> 0.81" 
[1] "TPR -> 0.886666666666667" 
[1] "TNR -> 0.58" 

[1] "FP -» 0.42" 


可 以 看 到 , 随机 森林 的 结果 比 Logistic 回归 的 结果 要 好 。 比较 Logistic 回归 中 的 迭代 ， 
此 处 采用 正常 训练 样本 而 不 是 分 层 平衡 训练 样本 。 总 体 精 度 为 0.72，TPR 为 0.84, TNR 
为 0.38， 而 FPR 为 0.62。 

构建 随机 森林 模型 的 第 一 次 迭代 ， 使 总 体 精度 提高 到 了 0.81, TPR 为 0.88，TNR 为 
0.58， 并 且 FPR 降低 了 0.42。 结 果 似乎 要 好 得 多 ， 可 是 是 否 达到 了 目标 ? 答案 是 还 没有 ， 
但 是 已 经 很 接近 了 ， 结 果 看 起 来 很 有 希望 。 

接着 需要 做 些 什么 来 进一步 提高 总 体 精度 、TPR 和 TNR. 以 及 降低 FPR 呢 ? 还 记得 
曾 停止 了 的 Logistic 回归 实验 吗 ? 使 用 分 层 平衡 样本 进行 训练 后 ， 发 现 TNR 有 显著 的 改 
善 ， 但 是 TPR 却 下 降 很 大 。 从 中 也 了 解 到 ， 模 型 以 前 不 能 学 习 模式 来 有 效 地 预测 TNR. 
因此 ， 采 用 了 一 个 分 层 平衡 的 训练 样本 ， 同 时 注意 到 该 模型 能 够 更 好 地 预测 TNR， 但 是 
以 降低 TPR 为 代价 。 为 了 改善 TNR 而 不 牺牲 TPR， 可 以 利用 机 器 学 习 技术 来 帮助 实现 
这 一 目标 。 

那么 ， 下 面 构建 一 个 随机 森林 模型 的 改进 版 本 。 可 是 应 该 从 哪里 开始 ? 设置 什么 参 
数 会 带 来 最 好 的 结果 ? 下面 依 次 去 讨论 这 些 内 容 。 

2. Mtry 

前 面 已 经 讨论 过 ，mtry 的 最 佳 值 是 模型 中 特征 总 数 的 平方 根 。 在 例子 中 ， 大 约 有 14 
个 特征 。 那 么 选择 3 个 、4 个 或 5 个 特征 ?这 里 可 以 进一步 应 用 试 错 法 , 或 者 使 用 一 种 在 
同一 个 软件 包 里 的 内 置 工具 ， 这 种 工具 可 供 查 看 mtry 的 每 个 值 的 结果 ， 如 图 5.3 所 示 。 


#Creating a vector with all the predictors 


(用 所 有 预测 因子 创建 一 个 向 量 ) 
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x«-c('Quantity Deviation new','Stagel PrevProduct 1', 
'Stagel RM1 QParameter2', 'Stagel RM1 QParameterl', 
'Stagel RM2 QParameter2', 'Stagel RM2 QParameterl', 
'Stage3 RM1 QParameterl', 'Stage3 RM1 QParameter2', 
'Stage3 RM2 QParameterl1', 'Stage3 RM3 QParameter2', 
'Stage3 RM3 QParameterl', 'Stage3 ResourceName new', 


'Stagel ProductChange Flag') 


fTune the model 

(调整 模型 ) 

mtry <- tuneRF(train[x],train$Detergent Quality, ntreeTry-200, 
stepFactor-1.5,improve-0.01, trace-TRUE, plot-TRUE) 


#Since the sampling is done randomly, different iterations might #render 


different results 


(由 于 抽样 是 随机 完成 的 ， 因 此 不 同 的 迭代 可 能 会 给 出 不 同 的 结果 ) 


mtry = 3 OOB error 14.255 
Searching left ... 

mtry = 2 OOB error = 15.75% 
-0.1052632 0.05 


Searching right ... 


mtry = 4 OOB error 17% 


-0.1929825 0.05 


g 
ui 
m 
9 
o 
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由 上 可 以 发 现 , 在 mtry = 3 的 情况 下 ， 取 得 了 最 好 的 结果 ， 也 就 是 最 低 的 OOB 误差 
率 。 所 以 确定 了 mtry 的 值 为 3。 
3. 构建 更 加 优化 的 随机 森林 模型 版 本 
为 了 进一步 改进 模型 ， 可 以 轻松 地 修改 一 些 东西 。ntree 参数 决定 了 森林 中 树 的 数量 。 
于 数据 集 规模 相对 较 小 ， 而 且 大 多 数 计算 机 具有 相对 较 高 的 计算 能 力 ， 因 此 将 其 设置 
为 5000。 也 许 这 么 大 的 数字 不 会 增加 一 个 适当 的 值 ， 但 是 也 不 会 造成 任何 损害 。 

其 次 ， 所 使 用 的 数据 集 是 一 个 不 平衡 的 样本 ， 也 就 是 说 ， 良 品 和 不 良品 的 样本 比例 
为 80:20。 正 如 之 前 所 看 到 的 ， 使 用 一 个 平衡 分 层 样本 ， 模 型 并 没有 获得 良好 的 TPR 结 
果 。 因 此 ， 需 要 考虑 采取 一 个 更 好 的 方法 来 训练 模型 。 因 为 使 用 50:50 的 比例 在 很 大 程度 
上 降低 了 TPR, 为 什么 不 把 训练 样本 比例 改 成 60:40 或 70:30 类 似 的 比例 呢 ? 小 幅度 地 增 
加 “不 良品 ”样本 ， 同 时 将 “良品 ”样本 的 比例 略为 下 降 ， 这 一 定 会 帮助 获得 比 高 度 不 
平衡 的 样本 更 好 的 性 能 。 这 时 可 以 通过 创建 一 个 修改 过 的 训练 数据 集 来 实现 这 个 目标 。 

最 后 ， 即 使 replacement 在 大 多 数 情况 下 对 于 随机 森林 来 说 工作 得 非常 好 ， 但 如 果 有 
一 个 高 度 不 平衡 的 训练 样本 ， 那 么 这 个 可 能 就 不 是 最 受 推荐 的 步骤 。 在 不 平衡 样本 中 不 
作 蔡 换 的 抽样 是 有 益处 的 。 和 否则 ， 来 自 较 小 分 类 的 样本 将 包含 太 多 的 重复 ， 分 类 数量 
然 不 足 。 

最 后 ，classwt 帮助 在 抽样 时 ， 设 置 每 棵 树 中 那些 类 的 训练 样本 的 先 验 概率 。 设 置 这 
个 值 有 助 于 更 加 有 策略 地 为 每 棵 树 的 训练 样本 分 层 。 

下 面 用 新 调整 的 设置 构建 一 个 模型 ; 

set.seed(600) 

data$y«-ifelse(data$Detergent Quality--"Good",1,0) 

test index«-sample (1:nrow (data), floor (nrow (data) *0.2)) 


train«-data[-test index,] 
test«-data[test index,] 


#Creating a modified training dataset with Good:Bad ratio as 66:33 
(创建 一 个 修改 后 的 训练 集 ， 良 品 和 不 良品 样本 比例 为 66:33) 

new train«-stratified(train, "Detergent Quality",175) 
subset«-train[sample (rownames (train[train$y--1,]),350),] 


new train«-rbind(new train[new train$y--0,1:ncol (train)],subset) 


#Building a random forest model 


(构建 一 个 随机 森林 模型 ) 
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fit«-randomForest (Detergent Quality~ 

fThe Production Quantity deviation feature 

(生产 量 偏差 特征 ) 

Quantity Deviation new + 

#The Production Quantity deviation feature 

(生产 量 偏差 特征 》 

Stagel PrevProduct 1 + 

# Raw Material Quality Parameters 

(原料 质量 参数 ) 
tagel RM1 QParameter2 
tagel RM1 QParameter 
tagel RM2 QParameter2 
tagel RM2 QParameter 
tage3 RM1 QParameter 
tage3 RM1 QParameter2 
tage3 RM2 QParameter 


S 
S 
S 
S 
S 
S 
S 
S 


+ 二 二 二 十 二 二 十 


tage3 RM3 QParameter2 


Stage3 RM3 QParameterl + 
# Machine/Resources used in a Stage 
(一 个 阶段 中 使 用 的 机 器 /资源 ) 
Stage3 _ ResourceName new + 
Stagel ProductChange Flag, 
data-new train, classwt - c(0.4, 0.6), 
ntree-5000,mtry-3,replace-FALSE) 


4. Training sample: Approximately 66:33 ratio for Good:Bad 


(训练 样本 : 良品 与 不 良品 的 比例 约 为 66:33) 


> 

Call: 

randomForest(formula = Detergent Quality ~ Quantity Deviation new + 
Stagel PrevProduct 1 + Stagel RM1 QParameter2 + Stagel RM1 QParameterl + 
Stagel RM2 QParameter2 + Stagel RM2 QParameterl + Stage3 RM1 QParameterl + 
Stage3 RM1 QParameter2 + Stage3 RM2 QParameterl + Stage3 RM3 QParameter2 + 
Stage3 RM3 QParameterl + Stage3 ResourceName new + 

Stagel ProductChange Flag, data = new train, ntree = 5000, mtry = 3, 
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replace - FALSE, classwt = c(0.4, 0.6)) 
Type of random forest : classification 
Number of trees : 5000 
No. of variables tried at each split : 3 


OOB estimate of error rate : 21.71% 


Confusion matrix: 

Bad Good  class.error 
Bad 131 44 0.2514286 
Good 70 280 0.2000000 


> prediction rf summary (fit,test) 


[1] "Confusion Matrix :-" 


predicted 

actuals Bad Good 
Bad 42 8 
Good 29 121 


uj ws 

[1] "Overall accuracy -> 0.815" 
[1] "TPR -> 0.806666666666667" 
[1] "TNR -> 0.84" 

[1] "FP -> 0.16" 


上 ， 总 体 精度 也 超过 了 80%。 这 是 本 团队 目前 在 预测 建 模 和 机 器 学 习 实验 中 取得 的 最 好 


结 


这 时 暂缓 一 缓 ， 先 来 认真 思考 当前 的 结果 是 否 能 为 整体 业务 带 来 增值 ， 以 及 此 时 是 


否 能 向 约翰 展示 这 个 结 


无 论 如何 ， 答 案 是 肯定 的 。 我 们 确实 为 约翰 团队 创造 了 有 价值 的 和 可 执行 的 结果 。 
4. 结果 是 如 何 创造 出 来 的 
为 了 简单 起 见 ， 假 设 现 有 的 数据 是 洗涤 剂 生产 订单 的 通用 数据 集 。 有 1000 个 订单 ， 
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其 中 225 个 洗涤 剂 为 不 良品 ， 其 余 的 为 良品 。 所 以 ， 简 而 言 之 ，225 个 不 良品 占 了 生产 洗 
涤 剂 总 量 约 20%， 必 须 将 这 些 不 良品 丢弃 ， 但 同时 也 造成 了 经 营 损失 。 通 过 我 们 的 预测 
性 解决 方案 ， 负 责 生产 的 团队 可 以 通过 采取 相应 的 措施 ， 在 生产 前 发 现 不 良品 以 减少 运 
营 损 失 。 

下 面 用 简单 的 数学 来 解释 。 

TPR 达到 了 80%， 也 就 是 说 ， 从 所 有 实际 的 良品 中 ， 正 确 地 预测 到 80% 的 产品 在 生 
产 之 后 ， 质 量 将 会 是 优 。 

TNR 达到 了 80%, 这 表明 从 所 有 实际 的 不 良品 中 ,正确 地 预测 了 其 中 的 80%。 因 此 ， 
我 方 团队 已 经 采取 了 可 行 的 手段 ， 将 总 体 20% 的 不 良品 率 减 少 了 80%， 也 就 是 16%。 这 
意味 着 对 于 剩 下 的 4% 的 不 良品 ， 此 模型 不 正确 地 预测 为 良品 。 这 49% 的 情况 是 在 总 体 情 
况 中 所 遗漏 的 。 
因此 ， 能 够 看 到 约 输 团队 获得 了 实 实在 在 的 价值 ， 他 们 可 以 采取 可 行 的 措施 来 减少 
不 良品 。 

5， 还 可 以 进一步 改善 吧 

虽然 取得 了 比较 好 的 成 绩 ， 但 还 有 一 定 的 改进 空间 。 如 果 能 够 降低 FPR A FNR, 
假 明 性 率 ， 我 们 的 解决 方案 可 以 进一步 得 到 增强 。 

6. 采取 什么 措施 来 实现 这 一 目标 

有 很 多 措施 可 以 更 好 地 改进 模型 。 这 些 措施 包括 越 来 越 多 的 特征 工程 ， 在 可 能 的 情 
况 下 添加 新 的 数据 维度 ， 捕 获 越 来 越 多 的 数据 ， 即 增加 训练 样本 量 ， 调 整 模型 和 校准 超 
参数 以 更 好 地 进行 泛 化 。 讨 论 这 些 话题 需要 具备 更 高 级 的 统计 和 领域 技能 ， 故 而 在 本 书 
的 范围 内 很 难 对 此 细 细 阅 述 。 因 此 ， 就 先 将 讨论 到 此 暂停 。 

下 一 步 将 学 习 并 构建 一 些 更 强大 和 更 流行 的 机 器 学 习 和 人 工 智能 建 模 技 术 。 


53 集成 建 模 一 -XGBoost 


XGBoost， 全 称 为 Extreme Gradient Boosting (极限 梯度 提升 ) ， 是 一 种 非常 流行 的 
机 器 学 习 集 成 技术 。 它 那 令 人 惊叹 的 准确 度 让 全 球 的 数据 科学 家 在 分 析 上 ) 取得 了 巨 
大 的 成 果 。XGBoost 建立 在 集成 建 模 的 基础 上 , 是 梯度 提升 机 (Gradient Boosted Machine， 
GBM) 算法 的 改进 版 本 。 一 般 而 言 ，XGBoost 算法 创建 了 多 个 分 类 器 ， 这 些 分 类 器 是 弱 
学 习 器 ， 这 意味 着 一 个 模型 比 仅 仅 一 个 随机 猜测 提供 了 更 好 的 准确 度 。 集 成 模型 中 的 学 
习 器 可 以 是 一 个 线性 或 树 型 模型 ， 此 模型 通过 随机 抽样 以 及 来 自 先 前 建 模 的 学 习 的 额外 
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权重 构建 而 成 。 在 每 个 步骤 中 ， 构 造 一 棵 决策 树 ， 并 且 树 未 能 正确 分 类 结果 时 ， 就 会 被 
分 配 一 个 对 应 的 权重 。 模 型 构建 的 下 一 个 迄 代 从 先前 的 模型 的 错误 中 学 习 。 在 每 个 步 又 
中 ,使 用 算法 计算 错误 预测 的 权重 ,例如 均 方 误差 (MSE) 用 于 回归 或 者 Logisitc 的 loss 
(函数 ) 用 于 分 类 。 下 一 次 迭代 试图 减少 损失 等 。 最 后 一 次 迭代 极 可 能 会 给 预测 问题 带 
来 最 好 的 结果 。 

对 于 数据 科学 家 而 言 ， 集 成 〈 建 模 ) 中 的 提升 (Boosting) 一 直 是 一 个 十 分 热门 和 最 
受 欢迎 的 话题 ， 但 也 常常 因 过 拟 合 而 备 受 批评 。 梯 度 提 升 机 是 选择 解决 分 类 和 回归 问题 
的 流行 算法 之 一 ， 因 为 它们 为 分 析 师 提供 了 一 个 广泛 的 可 定制 框架 来 构建 预测 模型 。 
XGBoost 是 GBM 的 增强 版 本 , 它 通 过 在 极 大 程度 上 减少 过 拟 合 的 可 能 性 来 构建 更 稳定 的 
模型 。XGBoost 通过 利用 一 个 内 置 的 惩罚 逻辑 用 于 处理 ) 复杂 度 。 这 是 一 个 简单 的 机 
制 ， 可 以 在 每 次 迭代 中 严格 惩罚 复杂 度 ， 因 此 可 以 降低 复杂 度 ， 减 少 偏差 (bias)。 这 大 
大 减少 了 模型 过 拟 合 的 可 能 性 。 基 本 上 ， 与 传统 的 GBM 相 比 ， 正 则 化 是 XGBoost 新 增 
加 的 一 个 功能 ， 可 以 带 来 有 利 的 结果 。 而 且 ，XGBoost 中 的 收敛 速度 已 经 大 大 提高 了 ， 
因此 可 以 更 快 地 迭代 和 调整 。 

接 下 来 快速 构建 一 个 XGBoost 模型 ， 用 于 处 理 曾 在 随机 森林 中 尝试 过 的 相同 问题 。 
以 下 将 使 用 “XGBoost” 包 来 构建 模型 。 

R 语言 中 的 XGBoost 包 提供 了 一 个 具有 相同 名 称 的 函数 来 训练 模型 。 但 是 ， 该 函数 
仅 接 受 数值 型 的 值 。 因 此 ， 数 据 集中 的 分 类 变量 〈 如 数量 偏差 、 产 品 变化 提示 等 ) 都 必 
须 转换 为 数值 型 变量 。 可 采用 独 热 编 码 〈one-hot coding) 来 实现 ， 换 而 言 之 ， 就 是 将 一 
个 二 进 制 标志 赋 给 一 个 相应 的 类 。 

此 外 ， 正 如 以 前 看 到 的 ， 一 个 加 权 平 衡 样 本 的 训练 可 以 得 出 有 利 的 结果 ， 因 此 继续 
使 用 相同 的 训练 样本 ， 其 中 66.66% 的 样本 为 “良品 ”， 其 余 则 为 “不 良品 ”: 

$Modelling for XgBoost 

CA XGBoost 建 模 ) 


#Importing the required libraries 
(导入 所 需 的 库 ) 

library (xgboost) 

library (Matrix) 

set.seed(600) 


#Converting the target variable to a binary 1/0 flag 
(将 目标 变量 转换 成 一 个 二 进 制 的 1/0 标志 ) 
# that is, 1 = Good and 0 = Bad 
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(Hl, 1 = Good 而 0 = Bad) 
data$y«-ifelse(data$Detergent Quality--"Good",1,0) 


#Collecting all numeric features together 

(将 所 有 数值 型 特征 集合 起 来 ) 

features«-c( 

'Stagel RM1 QParameter2', 'Stagel RM1 QParameterl', 
'Stagel RM2 QParameter2', 

'Stagel RM2 QParameter1', 'Stage3 RM1 QParameterl', 
'Stage3 RM1 QParameter2', 

'Stage3 RM2 QParameter1', 'Stage3 RM3 QParameter2', 
'Stage3 RM3 QParameterl') 


fCollecting all categorical features together 
(将 所 有 类 别 型 特征 集合 起 来 ) 
categorical«-c('Quantity Deviation new','Stagel PrevProduct 1', 


'Stagel ProductChange Flag','Stage3 ResourceName new') 


fCreating a 20$ sample for test and 80$ Train 

(创建 一 个 208 样 本 用 于 测试 ， 一 个 80% 样 本 用 于 训练 ) 

test index<-sample (1:nrow (data) ,floor (nrow (data) *0.2)) 
train«-data[-test index,] 

test«-data[test index,] 


fStratifying the training sample to get 50:50 training samples 
(将 训练 样本 分 层 ， 以 获得 50 :50 比例 的 训练 样本 ) 


new train«-stratified(train, 'Detergent Quality',175) 


fCreating a 66:33 ration training sample for Good:Bad 
(创建 一 个 66:33 比例 的 训练 样本 ， 以 获得 Good:Bad 的 结果 ) 
subset<-train [sample (rownames (train[train$y--1,]),350),] 


new train«-rbind(new train[new train$y--0,1:ncol (train)],subset) 


#Converting the training and test datasets into sparse datasets 
CHIR RA LEES E B RERO 
#This takes care of creating binary variables for each categorical 


variable 
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(这 负责 为 每 个 分 类 变量 创建 二 进 制 变量 ) 
train.sparse«-sparse.model.matrix(y-.-1, 
data-new train[,c(features, 'y',categorical)]) 
test.sparse«-sparse.model.matrix(y-.-1, 
data-test[,c(features, 'y',categorical)]) 
#Training an XGBoost model with the resampled training data 


〈 用 重 抽样 后 的 训练 数据 来 训练 一 个 XGBoost 模型 ) 


xgb <- xgboost(data = train.sparse, 
label - new train$y, 
objective-"binary:logistic", 
eta = 0.1, 
max depth - 12, 
nround-100, 
subsample - 0.8, 
colsample bytree - 0.6, 
random.seed = set.seed(100), 
nfold-20, 
eval metric - "error", 
nthread = 3,booster-"gbtree", 
early.stop.round - 10, 
verbose - TRUE 
) 
上 述 代码 基本 上 遵循 与 前 面相 同 的 过 程 。 此 外 ， 这 里 的 代码 将 训练 集 和 测试 集 转换 
为 稀疏 矩阵 ， 以 便 与 R 语言 中 实施 的 XGBoost 算法) 一 起 工作 。 当 仔细 查看 模型 构建 
代码 ， 会 在 模型 构建 函数 调用 中 发 现 不 少 新 的 超 参数 ， 比 如 objective、eta、max_depth、 
eval metric 等 。 下 面 逐 步 一 一 讨论 这 些 超 参 数 。 
在 及 语言 中 实施 XGBoost 〈 算 法) 可 以 通过 一 个 可 定制 的 框架 进行 。 它 允许 数据 科 
学 家 选择 和 定制 一 些 参数 以 提高 性 能 。 如 果 数 据 科 学 家 不 想 调 参 ， 大 多 数 这 些 参数 都 有 
默认 值 。 
前 几 个 选项 和 它们 看 起 来 的 完全 一 样 。data 表示 训练 集 的 选项 ，label 表示 目标 / 因 变 
量 。Objective 函数 帮助 定义 正在 构建 的 模型 的 类 型 。 在 上 面 代码 中 ， 试 着 去 构建 一 个 分 
类 模型 ， 因此 将 Objective 设 定 为 “binary:logistic”。 对 于 回归 , 将 它 设置 为 “reg:linear”。 
而 eta 参数 可 以 帮助 控制 学 习 率 。 换 而 言 之 ， 当 这 个 参数 被 添加 到 当前 的 近似 值 上 时 ， 它 
将 每 标 树 的 贡献 度 缩放 为 0 eta <1。 这 样 能 使 Boosting 过 程 更 加 保守 以 防止 过 拟 合 。eta 
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的 值 越 低 意味 着 nround 的 值 更 大 ， 后 者 也 就 是 迭代 次 数 。 类 似 地 ， 一 个 低 eta 值 意味 着 
该 模型 对 过 拟 合 更 稳健 但 计算 更 慢 。eta 默认 值 设 置 为 0.3。 但 在 我 们 的 实验 中 ， 将 它 设 
置 为 0.1， 并 且 让 迭代 次 数 的 值 最 高 。Max depth 定义 树 的 最 大 深度 ; 其 默认 值 设置 为 6， 
可 是 这 里 调整 为 稍 高 的 值 12。 

Subsample 定义 了 训练 实例 的 比率 ， 也 就 是 每 棵 树 随机 采样 的 观测 值 的 分 数 。 将 其 设 
置 为 0.5 意味 着 XGBoost 将 随机 收集 一 半 的 数据 实例 来 生长 树 , 最 终 有 助 于 防止 过 拟 合 。 
Colsample bytree 决定 了 为 每 棵 树 随机 选择 的 特征 的 最 大 数量 。 其 默认 值 是 1， 但 此 处 设 
置 为 稍 低 一 点 的 值 0.6， 以 便 为 每 棵 树 添加 随机 性 。eval_metric 参数 定义 用 于 验证 数据 的 
指标 。 为 分 类 设置 的 默认 选项 用 于 回归 的 “error” 和 “rmse”。 根 据 评估 指标 的 结果 改 
ilt Boosting XEFE. booster 参数 为 每 次 欠 代 定义 模型 的 类 型 。 现 在 有 两 种 选择 : gbtree 用 
于 一 棵 树 或 gblinear 用 于 线性 模型 。 在 大 多 数 情况 下 , 可 以 不 假 思索 就 选用 gbtree 来 构建 
集成 模型 ， 这 是 一 个 较 好 选择 。 

如 果 在 预 设 迭 代 次 数 过 程 中 出 现 了 糟糕 的 结果 ，early.stop.round 可 帮助 XGBoost 决 
定 什么 时 候 停 止 迭 代 。 在 某 些 情况 下 ， 与 前 一 次 迭代 相 比 ，Boosting 迭代 结果 不 佳 。 在 
这 种 情况 下 , 最 好 是 停止 进一步 的 迭代 , 并 为 模型 选择 最 近 的 最 佳 迭 代 。 Early.stop.iteration 
定义 在 结果 较 差 的 情况 下 停止 之 前 要 观察 的 欠 代 次 数 。 每 次 欠 代 后 ，XGBoost 算法 会 在 
屏幕 上 打印 统计 数据 ,以 便 解 释 模 型 的 改进 。 可 以 通过 设置 Verbose = 0 来 禁用 这 个 功能 。 
同样 ， 也 可 以 为 XGBoost 算法 选择 并 行 线程 的 数量 来 处 理 。 如 果 忽 略 此 参数 ，XGBoost 
会 为 并 行 处 理 自动 选择 最 佳 值 。 

现在 ， 已 经 理解 了 如 何 构建 算法 ， 接 下 来 使 用 该 模型 来 预测 测试 集 当中 的 结果 : 

#Creating a function to predict the outcome 

(创建 一 个 函数 预测 结果 ) 

#And also calculate the TPR, TNR, FPR and overall accuracy 

(而 且 也 计算 TPR, TNR. FPR 和 总 体 精度 ) 

print xgb summary<- function (xgb,test.sparse, test) 

ü 
y pred <- predict (xgb, newdata-test.sparse) 
y pred«-ifelse(y pred»0.5,"Good","Bad") 


print (a«-table(test$Detergent Quality,y pred) ) 

print (paste ("Overall accuracy ->", (sum(a[1,1],a[2,2]) /sum(a) ))) 
print (paste ("TPR ->", (a[2,2]/sum(a[2,1],a[2,21)))) 

print (paste ("TNR ->", (a[1,1]/sum(a[1,1],a[1,21)))) 

print (paste ("FPR -»", (a[1,2]/sum(a[1,1],a[1,2])))) 


第 5 章 


#Showcasing the results 


( 展示 结果 ) 


利用 机 器 学 习 增强 物 联网 预测 性 分 析 * ]91* 


print xgb summary (xgb,test.sparse,test) 


y pred 

Bad Good 
Bad 45 5 
Good 30 120 


[1] "Overall accuracy -> 0.825" 


[1] "TPR -» 0.8" 
[1] "TNR -» 0.9" 
[1] "FPR -> 0.11 


与 随机 森林 结果 相 比 ， 结 果 是 否 有 所 改进 ? 


是 的 ， 看 起 来 似乎 如 此 。 

如 果 仔 细 观 察 所 有 的 指标 
了 很 大 的 提高 。 因 此 ， 可 以 归结 
之 前 的 结果 不 相 上 下 。 


如 果 进一步 调整 所 得 的 结果 ， 


总 体 精 度 、TPR、FPR 和 TNR， 就 会 发 现 TNR 已 经 有 


出 ， 这 个 解决 方案 取得 了 一 个 不 错 的 改进 结果 ， 或 者 与 


还 需要 更 加 深入 地 探索 变量 ， 利 用 超 参数 进行 更 多 的 


正则 化 。XGBoost 提供 了 大 量 的 选项 来 调整 和 规范 ， 然 而 讨论 所 有 这 些 内容 超 出 了 本 书 
的 范围 。 接 着 将 通过 更 改 一 些 参数 来 做 另 一 种 尝试 。 采取 增加 early.stop.iteration 和 eta 的 
范围 ， 将 尝试 使 用 最 大 深度 、 子 采样 和 列 样本 参数 : 

#Training an XGBoost model with the resampled training data 


(使 用 重 抽 样 训练 数据 训练 一 个 XGBoost 模型 ) 


xgb <- xgboost(data = train.sparse, 


label = new train$y, 


objective-"binary:logistic", 
eta = 0.1, 
max depth - 15, 


nround-200, 


subsample = 0.6, 


colsample bytree — 0.8, 


random.seed = set.seed(100), 


nfold-20, 
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evalimetrici EPEOE 
nthread = 3,booster-"gbtree", 
early.stop.round -20, 
verbose = TRUE 

) 


print xgb summary (xgb,test.sparse,test) 


y pred 
Bad Good 
Bad 42 8 


Good 30 120 
[1] "Overall accuracy -> 0.81" 
[1] "TPR -» 0.8" 
[1] "TNR -> 0.84" 
[1] "FPR -> 0.16" 


这 里 没有 看 到 任何 更 进一步 的 改进 。 相 反 ， 发 现 总 体 精度 略 有 下 降 。 此 时 可 以 继续 
研究 R 语言 中 实施 XGBoost (算法 ) 时 可 用 的 其 他 调 优 参数 ， 并 在 试 错 的 基础 上 实施 一 
系列 实验 ， 以 了 解 可 以 在 哪里 改进 结果 。 此 外 ， 在 断定 通过 XGBoost 获得 的 结果 是 目前 
为 止 为 较 好 的 结果 之 前 ， 还 需要 做 一 个 简单 的 检查 ， 以 验证 在 大 多 数 情 况 下 这 种 断言 也 
是 成 立 的 。 

1. 真 的 获得 了 较 好 的 结果 吗 

Boosting 算法 容易 过 拟 合 ， 然 而 与 前 几 代 相 比 ，XGBoost 已 经 大 大 改善 了 这 一 点 。 
但 是 XGBoost 仍然 存在 过 拟 合 的 可 能 性 ， 尤 其 在 数据 不 平衡 的 情况 下 。 

为 了 验证 这 一 点 ， 将 采用 训练 集 上 的 预测 快速 检查 结果 : 

#Using the previously define function to predict on the training dataset 


(使 用 先前 定义 的 函数 在 训练 数据 集 上 进行 预测 》 


print xgb summary (xgb,train.sparse,new train) 


y pred 
Bad Good 
Bad 173 2 
Good 0 350 


[1] "Overall accuracy -> 0.996190476190476" 
i1 TIPR => 
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[1] "TNR -> 0.988571428571429" 
[1] "FPR -> 0.0114285714285714" 


可 以 清楚 地 看 到 结果 是 过 拟 合 的。 尽管 在 测试 集中 得 到 了 有 利 的 结果 ， 但 是 训练 集 
和 测试 集 的 结果 似乎 有 很 大 差异 。 如 果 使 用 这 种 过 拟 合 模型 ， 就 不 能 真正 利用 在 测试 集 
中 获得 的 结果 ， 因 为 如 果 选 用 另 一 个 小 的 测试 样本 ， 它 很 容易 就 给 出 完全 不 同 的 结果 。 
同样 地 ，Boosting 算法 也 可 能 是 高 度 不 稳定 的 ， 这 意味 着 在 采用 相同 的 数据 和 参数 
地 构建 模型 的 同时 ， 会 得 到 不 同 的 结果 。 
因此 ， 采 用 这 个 模型 将 会 造成 预测 能 力 非 常 不 稳定 ， 因 为 可 能 会 看 到 与 另 一 个 测试 
样本 完全 不 同 的 结果 。 所 以 ， 从 随机 森林 中 获得 的 结果 是 至 今 为 止 最 好 的 结果 。 下 面 继 
续 分 析 。 

2. 下 一 步 该 做 什么 

为 了 在 预测 性 分 析 中 获得 最 佳 结果 ， 第 一 步 就 要 深入 研究 数据 ， 就 像 在 第 3 章 “ 探 
索性 决策 科学 在 物 联 网 中 的 应 用 内 容 和 原因 ”中 所 采取 的 行动 一 样 。 深 入 研究 这 些 数据 ， 
再 加 上 具备 强大 的 业务 领域 知识 ， 有 助 于 数据 科学 家 创建 许多 新 特征 用 于 完成 分 析 。 将 
这 些 知 识 应 用 到 建 模 技术 中 ， 通 过 多 种 方法 对 模型 进行 规范 和 校准 来 改进 结果 ， 可 帮助 
获得 最 好 的 结果 。 

在 将 结果 总 结 并 传达 给 约翰 之 前 ， 我 们 打算 在 机 器 学 习 和 人 工 智能 领域 ( 即 神经 网 络 
和 深度 学 习 领 域 ) 进行 最 后 一 次 尝试 。 受 到 人 类 大 脑 模型 的 启发 ， 神 经 网 络 和 深度 学 习 早 
已 证 明了 通过 研究 数据 中 的 复杂 关系 ， 来 提供 强大 的 解决 方案 。 本 书 的 研究 范围 限定 在 研 
究 神经 网 络 和 深度 学 习 的 细微 差别 ， 探 究 其 在 当今 世界 的 不 同类 型 和 应 用 。 在 充分 理解 了 
这 个 主题 之 后 ， 接 下 来 将 在 现 有 的 用 例 上 构建 一 些 简单 的 深度 学 习 模型 ， 观 察 是 否 会 取得 
任何 改进 。 

3. 注意 事项 

神经 网 络 和 深度 学 习 属 于 非常 广泛 和 复杂 的 主题 。 对 如 此 广泛 的 主题 进行 深入 探索 
和 实验 超出 了 本 书 的 范围 。 因 此 只 在 以 下 小 节 对 这 个 主题 进行 初步 和 前 期 的 介绍 。 本 书 
引入 这 个 主题 和 实验 书 中 用 例 的 目的 ， 仅 仅 是 为 了 向 读者 展示 应 该 如 何 开始 展开 分 析 。 
同时 也 鼓励 读者 进一步 探索 和 学 习 这 些 主题 。 


Des 
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过 去 20 年 ,神经 网 络 和 深度 学 习 一 直 是 机 器 学 习 和 人 工 智能 的 一 个 前 景 光明 的 领域 。 
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而 最 近 的 发 展 更 是 令 人 惊讶 ， 人 们 亲眼 目睹 了 行业 将 它们 应 用 去 解决 以 前 遇 到 的 各 种 困 
难 问题 。 不 管 有 意 或 无 意 ， 在 构建 日 常生 活 中 的 应 用 程序 时 ， 也 采用 了 这 些 先 进 技术 。 
Google Now、Apple Siri 或 Microsoft Cortana 语音 功能 的 数字 助理 应 用 程序 ， 都 是 应 用 了 
强大 的 深度 学 习 技术 开发 出 来 的 。 同 样 ， 人 们 所 知道 的 人 脸 检测 功能 ， 将 照片 上 传 到 
Facebook， 以 及 实时 语言 翻译 工具 等 ， 也 都 开发 出 来 了 ， 这 些 都 是 应 用 最 新 和 最 强大 的 
神经 网 络 和 深度 学 习 技术 的 结果 。 

本 质 上 ， 人 们 一 直 使 用 计算 机 来 构建 软件 和 应 用 程序 ， 让 生活 变 得 更 加 轻松 居 意 。 
通过 解决 人 们 要 解决 的 相对 复杂 的 问题 ， 构 建 出 的 那些 预测 算法 已 经 迈 出 了 一 大 步 。 但 
是 ， 有 一 类 问题 由 人 类 来 解决 轻而易举 ， 而 由 计算 机 来 解决 却 困难 重重 。 这 些 问 题 最 初 
主要 集中 在 与 视觉 和 语音 相关 的 用 例 上 。 当 用 Google 搜索 “黄色 的 汽车 ”时 ， 就 会 出 现 
许多 黄 颜 色 汽车 的 图 像 。 对 于 一 个 人 而 言 ， 用 这 个 标准 来 区 分 和 分 类 一 幅 图 像 〈 即 “ 黄 
色 的 汽车 ”) 是 一 件 易如反掌 的 事情 ， 但 如 果 要 帮助 计算 机 辨别 和 区 分 ， 这 是 一 项 极 具 
挑战 性 的 任务 。 

这 一 切 都 始 于 人 类 大 脑 如 何 处 理 以 视觉 和 语音 /音频 形式 接收 到 的 信息 。 人 类 的 大 脑 
是 由 一 个 极其 密集 的 生物 神经 网 络 组 成 的 ， 它 可 以 在 几 分 之 一 秒 内 处 理 并 传递 信息 给 其 
他 相连 的 神经 元 。 这 些 不 计 其 数 相互 连接 的 神经 元 合力 帮助 解决 一 系列 问题 。 

最 初 帮助 计算 机 识别 图 像 /视频 视觉 或 语音 /音频 片段 的 尝试 一 败 涂 地 。 训练 计算 机 学 
习 这 些 模式 的 过 程 是 一 个 庞大 而 复杂 的 任务 。 神 经 网 络 和 深度 学 习 试图 通过 模仿 高 度 简 
化 的 人 脑 解决 这 些 问 题 。 近 年 来 ， 这 些 领 域 的 进步 无 比 巨 大 ， 人 们 也 切身 体会 到 了 它 对 
常生 活 的 影响 。 接 下 来 深入 浅 出 地 介绍 这 些 复杂 的 术语 。 

1. 什么 是 神经 网 络 


一 个 最 简单 的 神经 网 络 可 以 定义 为 “一 个 由 许 许多 多 简单 的 、 高 度 互 联 的 处 理 单元 
组 成 的 计算 系统 ， 它 通过 对 外 部 输入 的 动态 响应 来 处 理 信息 ”。 简 而 言 之 ， 神 经 网 络 通 
过 模仿 高 度 简化 的 人 脑 ， 创 建 一 个 含有 许多 高 度 互 联 的 神经 元 〈 即 简单 的 处 理 单元 ) 网 
络 来 解决 问题 。 这 些 神 经 元 通常 排列 成 许多 层 。 一 个 典型 的 前 馈 神经 网 络 至 少 含有 一 个 
输入 层 、 一 个 隐藏 层 和 一 个 输出 层 。 输 入 层 节点 对 应 于 我 们 希望 输入 到 神经 网 络 中 的 特 
征 或 属性 的 数量 。 这 些 与 前 面 在 线性 和 Logistic 回归 模型 中 使 用 的 特征 /维度 相似 。 输 出 
节点 的 数量 与 我 们 希望 预测 或 分 类 的 项 目 数量 相对 应 。 隐 藏 层 节点 通常 用 于 对 原始 输入 
属性 进行 非 线性 转换 。 

神经 网 络 最 初 是 为 了 解决 语音 和 视觉 问题 而 构建 起 来 的 ， 但 是 如 今 几 乎 所 有 其 他 领 
域 都 在 利用 它 的 超 强 能 力 解 决 问题 。 

图 5.4 显示 了 含有 一 个 单 隐藏 层 的 一 个 简单 神经 网 络 。 
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图 5.4 


这 是 一 个 简单 的 神经 网 络 , 含有 3 个 输入 层 、2 个 输出 层 和 一 个 具有 4 个 神经 元 的 隐 
藏 层 (多 个 隐藏 层 也 是 可 能 的 ) 。 图 5.4 中 的 每 个 连接 都 有 一 个 与 之 相关 的 权重 。 每 个 神 
经 元 接收 来 自前 一 个 节点 的 输入 ， 通 过 一 个 函数 处 理 一 些 信息 ， 并 将 该 信息 传递 给 下 一 
个 节点 。 最 终 的 输出 节点 输出 结果 。 神 经 网 络 的 学 习 过 程 是 使 用 一 个 简单 的 算法 ， 如 反 
向 传播 ， 它 试图 通过 改变 与 神经 元 之 间 的 每 个 连接 相关 的 权重 来 减少 误差 。 

为 了 简化 整个 过 程 , 将 图 5.4 和 之 前 用 来 学 习 决 策 树 的 例子 进行 比较 , 也 就 是 预测 一 
名 员工 是 技术 人 员 还 是 管理 人 员 。3 个 输入 节点 可 采用 诸如 “着 装 标准 ”“ 年 龄 “性 别 ” 
的 特征 ， 并 且 最 终 输出 将 含有 分 别 用 于 技术 人 员 和 用 于 管理 人 员 的 一 个 节点 。 根 据 最 终 
节点 中 的 值 ， 再 决定 是 与 否 。 

2. 那么 深度 学 习 是 什么 

一 言 天 之 ， 深 度 学 习 可 以 被 定义 为 一 个 含有 更 多 隐藏 层 的 神经 网 络 (肯定 比 这 里 的 
更 多 ; 本 书 稍 后 再 讨论 。 如 所 看 到 的 ， 在 前 面 的 例子 中 ， 有 一 个 带 有 一 个 单 隐藏 层 的 
神经 网 络 。 大 多 数 神经 网 络 最 多 有 23 层 隐 藏 层 。 然 而 ， 深 度 神 经 网 络 比 真 实意 义 上 的 
神经 网 络 要 深 得 多 。 它 们 可 以 深 达 25—30 层 ， 用 以 解决 复杂 的 语音 识别 问题 。 

深度 学 习 是 神经 网 络 领域 的 一 个 进步 。 许 多 人 不 禁 会 提出 一 个 简单 的 问题 : 为 什么 
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需要 将 一 个 含有 多 层 隐 藏 层 的 神经 网 络 分 类 为 深度 学 习 ? 这 两 者 不 是 很 相似 吗 ? 

答案 既 为 “是 ”也 为 “ 否 ”。 请 容 慢 慢 解释 。 最 初 尝试 构建 神经 网 络 的 唯一 愿景 是 
解决 使 用 现 有 技术 无 法 解决 的 复杂 问题 。 采 用 编程 构建 的 高 度 简化 的 人 脑 模 型 ， 帮 助 模 
型 学 习 了 复杂 的 特征 和 模式 ， 这 对 于 早期 成 功 是 十 分 有 帮助 的 。 而 由 此 触发 的 一 个 简单 
的 想法 是 ， 含 有 更 多 的 隐藏 层 数 会 帮助 模型 学 习 更 复杂 的 特征 和 模式 ， 从 而 解决 更 复杂 
的 问题 。 然 而 ， 这 个 想法 并 不 正确 。 在 近 20 年 的 时 间 里 ， 训 练 和 构建 多 层 神经 网 络 的 各 
种 尝试 鲜 有 成 功 。 这 主要 是 因为 “消失 的 梯度 ”效应 ， 增 加 多 于 一 个 的 隐藏 层 并 没有 带 
来 任何 益处 。 

采用 不 同方 法 ， 训 练 一 个 神经 网 络 的 下 层 ， 然 后 将 处 理 后 的 信息 以 问题 不 可 知 的 方 
式 传递 给 上 层 ， 这 有 助 于 利用 多 层 的 力量 解决 更 复杂 的 问题 。 这 一 进步 帮助 神经 网 络 在 
解决 巨大 复杂 问题 方面 取得 了 不 同 程度 的 成 功 。 深 度 学 习 指 的 是 在 神经 网 络 中 构建 的 用 
以 学 习 复杂 函数 的 许多 深度 层 数 ， 深 度 学 习 得 名 也 源 自 于 此 。 

图 5.5 显示 了 含有 3 个 隐藏 层 以 及 一 个 输入 层 和 一 个 输出 层 的 深度 神经 网 络 。 


深度 神经 网 络 


3. 神经 网 络 和 深度 学 习 能 解决 什么 问题 

神经 网 络 和 深度 学 习 共 同 解决 了 革命 性 的 问题 。 在 日 常生 活 中 已 深 有 体会 。 所 有 人 
都 从 这 种 或 那 种 深度 学 习 中 获 益 。 以 下 是 神经 网 络 和 深度 学 习 技 术 解决 问题 的 几 个 范例 。 

(1) 回归 : 通过 利用 深度 学 习 技 术 解决 问题 ， 那 些 朴素 普遍 的 老 问题 取得 了 进一步 
的 进展 。 
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(2) 436: 通过 利用 深度 学 习 技术 ， 二 元 和 多 类 分 类 的 分 类 问题 已 经 获得 显著 改进 。 
(3) 模式 识别 。 

D 在 文本 、 视 频 和 图 像 中 查找 模式 。 

口 语音 检测 ， 即 语音 到 文本 和 文本 到 语音 的 转换 。 

D 语音 和 文本 的 语言 翻译 。 

口 用 于 体育 与 取证 的 视频 分 析 。 

从 日 常 使 用 的 软件 应 用 程序 的 发 展 中 ， 人 们 最 近 观察 到 一 些 重要 的 里 程 碑 式 的 发 展 。 

有 具有 视频 功能 的 Google 翻译 ， 可 用 手机 查看 指示 牌 或 其 他 牌 板 上 的 他 国语 言 ， 实 时 
转换 为 其 他 语言 。 语 音 文本 转换 的 准确 性 已 经 有 了 显著 的 提高 。 图 像 分 析 和 模式 检测 使 
Google Photos 这 类 工具 变 得 非常 智能 。 排 序 的 照片 会 自动 检测 以 创建 短小 的 动画 电影 。 
搜索 图 片 库 时 ， 如 今 可 以 通过 现 有 选项 按 图 片 、 背 景 或 人 物 进 行 搜索 。 

运动 视频 的 增强 ， 比 如 板 球 的 实时 路 径 追 踪 ， 以 及 在 视频 中 增加 额外 信息 ， 有 助 于 
观众 轻松 地 使 用 信息 。 自 动 驾 驶 汽车 和 无 人 驾驶 飞机 ， 飞 机 上 的 自动 驾驶 功能 ， 自 导 导 
弹 等 ， 都 通过 某 种 方式 提高 了 人 们 的 生活 品质 。 

在 电子 商务 网 站 上 购物 时 给 出 的 建议 ， 在 手机 中 输入 文本 时 的 自动 完成 功能 ， 使 用 
不 同 软件 的 拼写 检查 和 语法 检查 工具 等 ， 都 是 利用 了 深度 学 习 技术 。 

还 有 许多 被 人 们 遗漏 的 各 种 功能 ， 如 可 降低 功 耗 的 智能 空调 ， 可 自动 调节 的 智能 手 
机 屏幕 亮度 ， 自 动 增强 自拍 和 照片 等 都 与 深度 学 习 息 息 相 关 。 

不 过 ， 本 书 将 应 用 深度 学 习 技术 来 继续 解决 问题 的 练习 ， 这 个 练习 即 是 在 探讨 
XGBoost 时 所 尝试 过 的 。 接 下 来 会 使 用 神经 网 络 和 深度 学 习 来 观察 用 例 是 否 得 到 任何 增 
强 的 结果 。 

4. 神经 网 络 是 如 何 工 作 的 

下 面 简 要 地 介绍 神经 网 络 中 的 不 同 组 件 。 一 个 简单 的 神经 网 络 可 以 从 根本 上 分 为 4 
个 主要 部 分 。 

Q 神经 元 。 

口 “连接 (edges/connections) ^. 

Q 激活 函数 。 
a 


学 习 。 


® 原文 为 “Edges (connections)”， 同 时 也 可 从 原文 第 230 页 和 第 236 页 中 看 出 作者 对 Edge 做 出 的 解释 ， 即 Edge 表示 两 个 相 
邻 层 中 的 两 个 神经 元 之 间 的 连接 。 更 多 详情 请 参阅 《 译 者 序 》 中 对 edge 的 解读 ， 本 书 讨论 与 神经 网 络 神经 元 相关 的 edge 
实 指 connection。 一 一 译 者 注 
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后 续 将 逐一 讨论 上 述 内 容 。 
5. 神经 元 


图 5.6 显示 了 大 脑 中 生物 神经 元 的 表示 。 请 观察 最 重要 的 组 成 部 分 ， 其 中 含有 轴 突 、 
树 突 和 神经 元 。 


神经 元 细胞 体 


前 一 个 神经 
TURNS 。 神经 元 细胞 体 


图 5.6 

生物 神经 元 通过 电信 号 或 脉冲 互相 传递 信号 或 信息 。 相 邻 的 神经 元 通过 它们 的 树 突 
来 接收 这 些 信 号 。 信 息 从 树 突 流向 主 细胞 体 到 轴 突 再 到 轴 突 终 末 。 一 言 以 蔽 之 ， 生 物 神 
经 元 是 相互 传递 关于 各 种 生物 功能 的 信息 的 计算 机 器 。 前 面 的 图 像 表示 两 个 互相 连接 的 
神经 元 。 

神经 网 络 的 关键 是 一 个 数学 节点 、 单 元 或 神经 元 ， 它 是 一 个 简单 的 处 理 元 素 。 在 输 
入 层 神经 元 接收 到 的 信息 应 用 一 个 数学 函数 处 理 ， 然 后 传递 到 隐藏 层 中 的 神经 元 。 该 信 
息 再 次 由 隐藏 层 神经 元 处 理 并 传递 给 输出 层 神经 元 。 重 要 的 一 点 是 ， 信 息 或 消息 是 通过 
一 个 激活 函数 来 处 理 的。 激活 函数 模仿 大 脑 神经 元 ， 它 可 能 会 或 可 能 不 会 根据 输入 信号 
的 强度 发 送信 号 。 然 后 将 该 激活 函数 的 结果 加 权 并 发 送 到 下 一 层 中 的 每 个 连接 。 

整个 过 程 请 参看 图 5.7。 

右 侧 的 图 像 表 示 来 自 神经 网 络 隐藏 层 的 神经 元 之 一 。 它 接收 3 个 输入 连接 ， 每 个 连 
接 都 有 一 个 与 之 相关 的 权重 。 来 自 输 入 节点 的 值 与 权重 相 乘 ， 然 后 将 所 有 权重 和 输入 的 
总 和 传递 给 激活 函数 。 


第 5 章 利用 机 器 学 习 增强 物 联网 预测 性 分 析 * 199* 


图 5.7 


求 和 函数 如 下 所 示 。 
fu)= Y wx; +b; 


m: 
n 是 输入 神经 元 的 总 数 。 

wy 是 从 第 i 个 神经 元 到 当前 神经 元 的 连接 的 权重 ， 即 j。 

访 是 输入 神经 元 (第 i 个 神经 元 ) 的 输出 。 

by 是 偏 置 (bias) 。 

置 与 之 前 在 线性 和 Logistic 回归 模型 中 学 到 的 截 距 概念 类 似 。 它 允许 神经 网 络 模型 
将 激活 函数 “向 上 ”或 “向 下 ”移动 。 这 有 助 于 神经 网 络 变 得 更 灵活 ， 从 而 提供 更 稳健 
和 更 稳定 的 结果 。 

6. 连接 (Edges/Connections) 

Edge CJRBIl connection) 表示 两 个 相 邻 层 中 的 两 个 神经 元 之 间 的 连接 。 它 可 处 在 一 个 
输入 层 和 一 个 隐藏 层 之 间 ， 两 个 隐藏 层 之 间或 一 个 隐藏 居 和 一 个 输出 层 之 间 。 每 一 个 连 
接 都 有 一 个 与 之 相关 联 的 权重 ， 此 权重 相当 于 在 决定 特征 时 的 相关 性 ， 如 图 5.8 所 示 。 

7. 激活 函数 

激活 函数 帮助 隐藏 层 中 的 神经 元 向 网 络 中 引入 非 线性 。 激 活 函数 应 用 于 求 和 函数 的 
结果 ， 并 将 输出 传递 给 下 一 层 中 的 下 一 个 神经 元 或 多 个 神经 元 。 它 刺激 生物 神经 元 的 发 
电 或 不 发 电 性 质 。 生 物 神经 元 基本 上 根据 接收 到 的 输入 信号 将 电信 号 传递 给 下 一 个 神经 
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元 。 为 了 在 神经 网 络 的 神经 元 中 获得 相似 的 功能 ， 可 以 设计 它 来 限制 神经 元 的 输出 ， 通 
常 为 0 到 1 或 -1 到 1 之 间 的 值 。 在 大 多 数 情况 下 ， 网 络 中 的 每 个 神经 元 都 使 用 相同 的 激 
活 函数 。 几 乎 任何 非 线性 函数 都 可 以 完成 这 项 工作 ， 虽 然 对 于 反 向 传播 算法 来 说 ， 它 必 
须 是 可 微 的 ， 而 且 如 果 函 数 是 有 界 的 ， 它 也 会 有 所 帮助 。 


图 5.8 


在 许 许 多 多 的 选择 当中 ，sigmoid 函数 是 广 受 应 用 的 激活 函数 。 这 是 一 个 S 型 可 微分 
激活 函数 。 这 个 函数 之 所 以 很 受 欢 迎 ， 主 要 是 由 于 其 易于 微分 而 计算 效率 好 。 

除了 sigmoid 函数 之 外 ， 其 他 常用 的 激活 函数 还 有 一 次 函数 、 双 曲 正切 函数 、softmax 
函数 、ReLU 函数 等 。 

8. 学 习 

与 以 前 探索 的 算法 不 同 ， 神 经 网 络 的 学 习 过 程 略 有 不 同 。 学 习 过 程 本 质 上 是 迭代 的 ， 
每 次 迭代 都 会 尝试 提高 连接 Cedge/connection) 的 权重 ， 从 而 减少 误差 并 更 接近 结果 。 这 
个 过 程 一 直 持 续 到 结果 低 于 预先 设 定 的 阔 值 。 

神经 网 络 最 流行 的 学 习 算 法 之 一 是 反 向 传播 算法 〈 还 有 更 多 算法 ) 。 它 是 在 早期 开 
发 的 ， 但 现在 仍然 被 广泛 使 用 。 该 算法 使 用 梯度 下 降 (gradient descent) 作为 核心 学 习 机 
制 。 它 首先 为 网 络 中 的 每 一 个 连接 分 配 随 机 权重 。 然 后 通过 做 出 微小 改变 来 计算 连接 的 
权重 ， 并 逐渐 根据 网 络 产生 的 结果 与 期 望 的 结果 之 间 的 误差 来 确定 调整 。 

反 向 传播 算法 应 用 从 输出 到 输入 的 误差 传播 ， 并 逐渐 微调 网 络 权重 ， 以 使 用 梯度 下 
降 技术 将 误差 总 和 最 小 化 。 

反 向 传播 学 习 算法 描述 如 下 。 

口 “ 初 始 化 连接 的 权重 : 首先 给 每 个 连接 〈edge/connection) 都 随机 分 配 一 个 权重 ， 


ü 


第 5 章 利用 机 器 学 习 增强 物 联网 预测 性 分 析 “201。 


也 可 由 用 户 定 义 。 

前 馈 : 通过 节点 激活 函数 和 权重 ， 将 消息 处 理 并 通过 网 络 从 输入 层 传递 到 隐藏 
层 和 输出 层 。 

计算 误差 : 将 网 络 的 结果 与 实际 已 知 的 输出 进行 比较 。 如 果 误 差 低 于 预定 义 的 
冰 值 ， 则 训练 神经 网 络 并 终止 算法 ;否则 ， 它 就 被 传播 。 

传播 : 根据 在 输出 层 计算 的 误差 修改 连接 Cedge/connection 的 权重 。 该 算法 通 
过 网 络 向 后 传播 误差 (因此 得 名 反 向 传播 ) ， 并 计算 与 权重 值 变化 相对 应 的 误 
差 变 化 的 梯度 。 

调整 : 连接 (edge/connection) 的 权重 使 用 梯度 变化 进行 调整 ， 唯 一 目的 是 减少 
误差 。 每 个 神经 元 的 权重 和 偏 置 根据 激活 函数 的 导数 的 因子 来 调整 。 


这 就 是 训练 时 神经 网 络 学 习 的 过 程 。 经 过 了 这 个 学 习 过 程 的 每 次 循环 被 称 为 一 个 
epoch 循环 次数 )。 

9. 神经 网 络 有 哪些 不 同类 型 

世界 各 地 的 科学 家 根据 神经 网 络 的 结构 ， 构 建 了 各 种 各 样 的 神经 网 络 。 最 受 欢迎 的 


神经 网 络 如 下 。 
Q “前 馈 神经 网 络 : 前 馈 神 经 网 络 是 一 种 人 工 神 经 网 络 ， 各 个 单元 之 间 的 连接 不 形 


成 一 个 循环 。 这 是 第 一 个 也 是 最 简单 的 人 工 神经 网 络 。 信 息 只 在 一 个 方向 上 移 
动 ， 从 输入 节点 通过 隐藏 节点 〈 如 果 有 的 话 ) 然后 到 输出 节点 ; 例如 ， 感 知 器 
和 多 层 感知 器 (MLP) 。 

递归 神经 网 络 : 递归 神经 网 络 (RNN) 包含 至 少 一 个 反馈 连接 ， 以 便 激 活 可 以 
循环 流动 。 这 使 得 网 络 能 够 进行 时 间 处 理 和 学 习 序 列 ， 例 如 执行 序列 识别 /再 现 
或 时 间 关 联 /预测 。RNN 的 例子 有 Elman 网 络 、Jordan 网 络 等 ， 如 图 5.9 所 示 。 


D 
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口 “ 卷 积 神经 网 络 : 在 卷 积 神经 网 络 (CNN) 中 ， 每 一 层 都 充当 检测 层 ， 用 于 呈现 
在 原始 数据 中 存在 的 特定 特征 或 模式 。CNN 中 的 第 一 层 检测 相对 容易 识别 和 解 
释 的 特征 。 后 面 的 层 则 检测 更 小 的 特征 ， 这 些 特征 更 为 抽象 ， 通 常 出 现在 较 早 
层 检测 到 的 许多 较 大 特征 中 。CNN 的 最 后 一 层 能 够 通过 结合 输入 数据 中 先前 各 
层 检测 到 的 所 有 特定 特征 进行 分 类 。 

10. 应 用 神经 网 络 或 深度 学 习 技术 进行 建 模 

R 语言 中 有 很 多 软件 包 可 用 于 构建 深度 学 习 模型 。 最 受 欢迎 的 是 neuralnet、AMORE、 
H20, RSNNS 等 。 在 对 应 的 用 例 中 ， 将 选择 RSNNS 包 中 一 个 非常 流行 的 前 馈 神经 网 络 ， 
称 为 多 层 感知 器 (MLP) 。 

MLP 是 感知 器 的 一 种 先进 的 且 改 进 后 的 实现 ， 也 就 是 一 种 最 简单 的 前 馈 神经 网 络 算 
法 。 MLP 是 感知 器 的 提升 和 改进 版 本 , 而 感知 器 又 是 前 馈 神经 网 络 的 最 简单 形式 的 算法 。 
一 个 感知 器 只 有 一 个 神经 元 隐藏 层 ， 而 MLP 顾名思义 有 多 个 隐藏 层 。MLP 比 感知 器 拥 
有 更 多 的 优势 。 它 可 以 更 好 地 处 理 数据 并 更 容易 地 对 复杂 关系 建 模 ， 这 是 因为 它 可 以 区 
分 非 线性 可 分 的 数据 。 而 且 ， 一 个 含有 足够 隐藏 节点 的 双 层 反 向 传播 网 络 已 被 证 明 是 一 
个 通用 逼近 器 。 

有 时 ，MLP 不 能 落 在 全 局 最 小 值 ， 而 是 陷入 了 局 部 最 小 值 中 。 这 是 由 于 接 下 来 的 梯 
度 下 降 策略 。 另 外 ， 由 于 这 个 原因 ， 有 时 会 得 到 非常 不 稳定 的 模型 。 不 稳定 的 模型 可 以 
被 定义 为 一 个 场景 ， 其 中 在 相同 的 数据 上 具有 完全 相同 参数 设置 的 模型 ， 其 每 次 欠 代 都 
给 出 了 完全 不 同 的 结果 。 

下 面 开始 构建 MLP 深度 学 习 模型 , 观察 它们 是 否 能 够 比 以 前 的 解决 方案 提供 更 好 的 
结果 。 

一 个 MLP 只 处 理 数值 型 数据 。 因 此 ， 将 分 别 创建 二 进 制 标志 ， 在 训练 神经 网 络 之 前 
对 数值 型 数据 点 进行 归 一 化 : 


library (RSNNS) 


fcreating a binary flag for the categorical variables 
(创建 一 个 二 进 制 标志 用 于 分 类 变量 ) 

data$Quantity Deviation new High«- 
ifelse(data$Quantity Deviation new--"High",1,0) 
data$Quantity Deviation new Medium«- 
ifelse(data$Quantity Deviation new--"Medium",1,0) 
data$Quantity Deviation new Low«- 


ifelse(data$Quantity Deviation new--"Low",1,0) 
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data$Stagel PrevProduct 1 Product 545«-ifelse(data$Stagel PrevProduct 1 == 
"Product 545",1,0) 

data$Stagel PrevProduct 1 Others«-ifelse(data$Stagel PrevProduct 1 == 
"Others",1,0) 


data$Stage3 ResourceName new Resource 108«- 


ifelse(data$Stage3 ResourceName new--"Resource 108",1,0) 


data$Stage3 ResourceName new Resource 109«- 
ifelse(data$Stage3 ResourceName new--"Resource 109",1,0) 
data$Stage3 ResourceName new Others«- 


ifelse(data$Stage3 ResourceName new--"Others",1,0) 


data$Stagel ProductChange Flag Yes«- 
ifelse(data$Stagel ProductChange Flag--"Yes",1,0) 


fCreating the test and train sample 

(创建 测试 样本 和 训练 样本 ) 

set.seed(600) 

fCreating a 20$ sample for test and 80$ Train 

(创建 一 个 20% 测试 样本 和 一 个 80% 训 练 样本 ) 

test index«-sample (1:nrow (data), floor (nrow (data) *0.2)) 
train«-data[-test index,] 

test«-data[test index,] 


fCollecting the newly created variables together 

(将 新 创建 的 变量 集合 起 来 ) 

binary categorical«- 

c("Quantity Deviation new High","Quantity Deviation new Medium", 
"Quantity Deviation new Low","Stagel PrevProduct 1 Product 545", 
"Stagel PrevProduct 1 Others","Stage3 ResourceName new Resource 108", 
"Stage3 ResourceName new Resource 109","Stage3 ResourceName new Others", 


"Stagel ProductChange Flag Yes") 


d$Collecting all the numeric features together 
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(将 所 有 数值 型 特征 集合 起 来 ) 

features«-c( 

'Stagel RM1 QParameter2', 'Stagel RM1 QParameterl', 
'Stagel RM2 QParameter2', 

'Stagel RM2 QParameterl1', 'Stage3 RM1 QParameterl', 
'Stage3 RM1 QParameter2', 

'Stage3 RM2 QParameter1', 'Stage3 RM3 QParameter2', 
'Stage3 RM3 QParameterl') 


fTaking a 66:33 training sample for Good:Bad 

〈 取 一 个 训练 样本 ， 良 品 和 不 良品 样本 比例 为 66:33 ) 

new train«-stratified(train,"Detergent Quality",175) 
subset«-train [sample (rownames (train[train$y--1,]),350),] 


new train«-rbind(new train[new train$y--0,1:ncol(train)],subset) 


fNormalizing all the numeric columns in the data and then combining with 
the cateogrical data 

(将 数据 中 的 所 有 数值 型 的 列 归 一 化 ， 然 后 与 分 类 数据 结合 ) 
train.numeric«-normalizeData (new train[,features]) 


train.numeric«-cbind(train.numeric,new train[,binary categorical]) 


fNormalizing all the numeric columns in the data and then combining with 
the cateogrical data 

(将 数据 中 的 所 有 数值 型 的 列 归 一 化 ， 然 后 与 分 类 数据 结合 ) 
test.numeric«-normalizeData (test[, features]) 


test.numeric«-cbind(test.numeric,test[,binary categorical]) 


Y«-new train$y 


X-train.numeric 


fit&-mlp(x-train.numeric, y-Y, size = c(5,3), 
maxit = 100, 
initFunc = "Randomize Weights", 
initFuncParams = c(-0.3, 0.3), 
learnFunc = "Std Backpropagation", 


learnFuncParams = c(0.1, 0), 
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updateFunc = "Topological Order", 
updateFuncParams - c(0), 
hiddenActFunc - "Act Logistic", 
shufflePatterns - TRUE, 

linOut - FALSE) 


所 使 用 的 代码 几乎 相同 。 因 为 MLP 只 处 理 数值 型 数据 , 这 里 添加 了 一 些 额外 的 代码 ， 
手动 创建 选择 的 4 个 分 类 变量 的 二 进 制 标志 。 此 外 , 也 采用 了 RSNNS 包 中 提供 的 内 置 函 
数 ， 对 数据 集中 的 连续 变量 进行 了 归 一 化 。 

最 后 ， 采 取 一 个 重新 分 配 后 的 66 : 33 比例 的 训练 样本 ， 就 和 以 前 的 实验 一 样 。 前 面 
的 代码 突出 显示 了 MLP 神经 网 络 的 函数 调用 。 后 续 很 快 就 会 讨论 这 里 最 新 出 现 的 参数 。 
size 参数 定义 了 每 个 隐藏 层 中 神经 元 的 数量 。 己 经 定义 了 两 个 隐藏 层 , 分 别 含 有 5 个 神经 
元 和 3 个 神经 元 用 于 当前 的 迭代 。maxit 参 数 定义 了 神经 网 络 应 该 执行 的 最 大 迭代 的 上 限 ， 
以 找到 对 连接 (edge/connection) 权重 的 最 佳 估 计 值 。initFunc 参数 定义 初始 化 函数 以 初 
始 化 网 络 中 连接 (edge/connection) 的 权重 。 在 大 多 数 情况 下 ， 最 好 是 随机 加 权 。 将 函数 
WLA Randomize Weights 就 能 让 mlp 函数 处 理 这 个 过 程 。 

learnFunc 参数 定义 网 络 的 学 习 算法 。 可 以 选择 Std_Backpropagation， 也 就 是 前 面 学 

到 的 学 习 算法 。 它 是 最 受 欢迎 和 广泛 使 用 的 学 习 函 数 。 这 个 软件 包 还 有 一 些 其 他 的 选项 ， 
读者 可 以 试 试看 。 此 外 ， 还 需要 为 隐藏 层 中 的 神经 元 定义 激活 函数 。 还 有 其 他 一 些 选项 ， 
如 SCG (缩放 共 思 梯 度 ) ~ Rprop. Quickprop 等 。 每 种 学 习 技 术 都 有 各 自 的 优势 和 缺点 ， 
可 以 根据 数据 的 变化 进行 调整 。 最 后 ，linout 选项 设置 为 FALSE， 因 为 此 处 正在 为 一 个 
分 类 用 例 建 模 ， 而 不 是 为 一 个 线性 回归 用 例 。 
现 已 非常 随机 地 选择 了 神经 元 数 和 层 数 。 有 一 个 通用 的 经 验 规 则 ， 即 每 层 神经 元 数 
越 少 ， 过 拟 合 的 可 能 性 越 低 。 可 用 试 错 法 来 查看 和 验证 什么 样 的 层 数 和 神经 元 数 最 适合 
神经 网 络 。 如 前 所 述 ， 两 层 网 络 已 普遍 显示 出 很 好 的 效果 。 因 此 ， 这 时 也 为 网 络 选择 两 
个 隐藏 层 。 

现在 观察 模型 在 测试 数据 上 会 取得 怎样 的 效果 。 下 面 将 构建 一 个 类 似 于 先前 模型 的 
函数 来 预测 和 计算 有 关 指 标 ， 即 TPR、TNR、FPR 和 总 体 精度 : 


print mlp summary«-function(fit,test.numeric, test) 
i 
yhat«-predict (fit,test.numeric) 
yhat«-ifelse(yhat»0.5,1,0) 
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confusion matrix«- table (test$y, yhat) 
print("Confusion Matrix :-") 

print (confusion matrix) 

TP«-confusion matrix[2,2] 
FP«-confusion matrix[1,2] 
TN«-confusion matrix[1,1] 
FN«-confusion matrix[2,1] 

print (paste ("Overall accuracy ->", (TP+TN) /sum(confusion matrix))) 
print (paste ("TPR -> ",TP/(TP-*FN))) 
print (paste ("TNR -> ",TN/ (TN+FP))) 
print (paste ("FP -> ",FP/(TN+FP))) 


print mlp summary (fit, test.numeric, test) 


[1] 
[1] 
[1] 
[1] 


yhat 
0 1 
40 10 
42 108 


"Overall accuracy -> 0.74" 
"TPR -» 0.72" 

"TNR -> 0.8" 

"EP -» 0.2" 


然而 并 没有 看 到 很 好 的 结果 。 与 先前 迭代 比较 ， 结 果 相 对 较 差 。 与 以 前 的 结果 相 比 ， 
总 体 精 度 、TPR 和 TNR 都 下 降 了 一 些 。 在 继续 完成 我 们 的 研究 成 果 之 前 ， 还 需要 确定 模 
型 是 否 稳定 以 及 是 否 过 拟 合 


接着 要 用 训练 数据 来 测试 预测 结 果 ， 以 检查 结果 是 否 有 很 大 差异 : 


> print mlp summary (fit,train.numeric,new train) 


[1] 
[1] 
[1] 
[1] 


"Overall accuracy -> 0.811428571428571" 
"TPR -> 0.768571428571429" 
"TNR -> 0.897142857142857" 
"FP -> 0.102857142857143" 
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可 以 观察 到 结果 稍微 过 拟 合 ， 但 仍然 比 以 前 在 XGBoost 中 看 到 的 要 好 。 很 可 能 结果 
也 不 稳定 。 现 可 采用 相同 的 参数 设置 和 数据 ， 对 模型 执行 几 次 迭代 来 检查 。 如 果 结 果 变 
化 太 大 ， 可 得 出 结论 ， 即 模型 也 是 不 稳定 的 。 

使 用 相同 的 训练 集 和 超 参数 ， 对 模型 构建 练习 再 一 次 迭代 ， 最 后 得 出 以 下 输出 结果 ; 


[1] "Confusion Matrix :-" 


yhat 

0 1 
0 43 7 
1 43 107 


[1] "Overall accuracy -> 0.75" 
[1] "TPR -> 0.713333333333333" 
[1] "TNR -> 0.86" 
[1] "FP -» 0.14" 


结果 非常 相似 。 因 此 ， 可 以 说 模型 相对 稳定 ， 在 很 大 程度 上 没有 过 拟 合 ， 总 体 性 能 
较 平均 。 但 是 ， 还 不 能 把 前 面 的 结果 作为 最 好 的 结果 发 给 约翰 团队 。 这 个 结果 不 是 迄今 
为 止 得 到 的 最 好 的 结果 。 还 有 另外 一 个 模型 一 一 随机 森林 一 一 它 给 我 们 提供 了 最 好 的 结 
果 。 此 时 可 以 进一步 调整 深度 学 习 模型 ， 以 提供 更 好 、 更 稳定 的 结果 ， 或 者 返回 并 选择 
以 前 的 任何 实验 去 更 好 地 调整 模型 。 

11， 后 续 任务 


此 刻 暂时 停 下 预测 性 分 析 的 实验 ， 先 从 所 有 练习 中 吸取 学 习 收获 ， 以 便 提 取出 最 好 
的 结果 。 对 实验 进行 不 断 地 调整 ， 这 种 做 法 可 一 直 持续 下 去 。 因 此 ， 会 从 预测 性 分 析 堆 
栈 中 提取 迄今 为 止 取得 的 最 好 结果 。 

12. 阶段 性 成 果 分 析 

开始 时 ， 我 方 团队 在 分 析 中 通过 探查 预测 堆栈 来 解决 问题 。 在 第 4 章 中 ， 最 初 采 用 
了 线性 回归 用 以 解决 问题 ， 预 测 生产 洗涤 剂 的 关键 成 品质 量 参数 之 一 。 接 着 ， 还 尝试 使 
用 既 强 大 又 简单 的 算法 来 预测 连续 变量 。 由 于 依然 发 现 结果 没有 获得 任何 重大 改进 ， 另 
外 尝试 对 一 个 二 元 结果 建 模 。 应 用 一 种 非常 简单 的 Logistie 回归 技术 构建 了 分 类 模型 ,并 
且 观 察 到 颇 有 希望 的 结果 ， 因 而 进一步 实验 。 随 后 ， 使 用 平衡 的 样本 来 改进 模型 精度 让 
我 们 看 到 了 一 线 希 望 。 


* 208 * 当 大 数据 遇见 物 联网 一 一 智能 决策 解决 之 道 


然后 ， 利 用 机 器 学 习 中 的 尖端 算法 来 学 习 模式 ， 以 更 好 地 预测 “不 良品 ”洗涤 剂 的 
可 能 性 。 使 用 了 随机 森林 和 XGBoost 等 集成 机 器 学 习 模型 。 而 且 用 随机 森林 在 整个 实验 
中 取得 了 最 好 的 结果 一 一 TPR、TNR 和 总 体 精度 都 超过 了 80%。 但 是 ，Boosting 算法 不 
利于 获得 好 的 结果 ， 因 为 它们 不 能 通过 泛 化 拟 合 数据 。 最 后 ， 对 神经 网 络 和 深度 学 习 的 
基础 知识 进行 了 探索 和 实验 ， 为 改进 结果 竭尽 所 能 。 我 们 取得 了 相当 不 错 的 成 绩 ， 然 而 
却 并 不 比 随机 森林 好 很 多 。 
因此 ， 可 以 将 随机 森林 模型 提交 给 约翰 团队 ， 以 解决 他 们 正在 试图 解决 的 预测 性 问 
题 ， 从 而 减少 工厂 生产 的 洗涤 剂 不 良品 。 


55 汇总 结果 


现在 快速 汇总 所 有 的 发 现 和 学 习 收获 ， 给 约翰 团队 提交 解决 方案 。 下 面 将 简单 回顾 
总 结 洗涤 剂 质量 用 例 的 整个 解决 问题 过 程 。 


5.5.1 快速 回顾 


位 于 印度 浦 那 的 一 家 大 型 消费 品 公司 的 生产 工厂 ， 由 于 频繁 生产 出 一 些 劣质 洗涤 剂 
而 面临 严重 的 商业 损失 。 其 运营 负责 人 约翰 前 来 联系 ， 看 看 我 们 能 否 帮助 他 找 出 造成 劣 
质 洗 涤 剂 的 原因 。 于 是 ， 我 方 团队 采用 一 种 解决 问题 的 技术 来 详细 研究 问题 的 动态 变化 。 
并 且 也 全 身心 地 投入 大 量 时 间 来 理解 问题 ， 选 取 一 个 众所周知 的 行业 架构 即 SCQ 框架 去 
解析 问题 。 

在 解析 好 问题 之 后 ， 就 不 同 的 (问题 影响 ) 因素 展开 头脑 风暴 ， 设 计 了 各 种 可 以 帮 
助 解决 问题 的 假设 。 应 用 一 个 结构 化 的 框架 ( 即 问题 解决 框架 ) ， 为 这 个 问题 设计 了 一 
个 较 高 层次 且 十 分 详尽 的 解决 方案 /蓝图 。 随 后 ， 深 入 数据 并 验证 了 由 问题 解决 框架 设计 
的 不 同 假设 。 最 后 ， 从 假设 检验 中 吸收 了 所 有 的 学 习 收 获 ， 把 问题 的 原因 告知 约翰 。 

这 个 解决 方案 给 约翰 留 下 了 十 分 深刻 的 印象 ， 同 时 他 的 团队 对 这 个 问题 及 其 中 起 到 
关键 作用 的 原因 也 取得 了 比较 清晰 的 认识 。 因 此 ， 约 翰 的 团队 再 次 联系 ， 想 知道 是 否 能 
够 帮助 他 们 更 有 效 地 开展 工作 ， 即 希望 构建 一 个 预测 性 解决 方案 ， 帮 助 他 们 在 生产 过 程 
之 前 做 出 更 好 、 更 有 针对 性 的 决策 ， 从 而 减少 损失 。 

故此 ， 我 方 探查 了 解决 问题 的 预测 性 分 析 堆 栈 。 同 时 对 此 进行 了 讨论 和 实验 ， 而 且 
实际 应 用 了 线性 回归 、Logistic 回归 、 决 策 树 、 随 机 森林 和 XGBoost 等 机 器 学 习 技 术 以 及 
多 层 感知 器 等 深度 学 习 技术 。 在 所 有 的 实验 中 ， 我 们 从 随机 森林 模型 中 获得 了 最 好 的 结 
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果 。 实 现 了 80% 以 上 的 总 体 精度 ， 超 过 80% 的 TPR 〈 正 确 预 测 洗涤 剂 良品 ) 和 超过 80% 
ff TNR. (正确 预测 洗涤 剂 不 良品 ) 。 


5.5.2 ”从 预测 建 模 练习 取得 的 结果 


利用 我 们 的 预测 模型 , 可 以 帮助 约翰 的 团队 对 80% 的 产品 采取 对 策 , 因为 在 这 些 80% 
的 产品 中 产生 不 良品 可 能 性 很 高 。 因此 , 运营 团队 而 今 有 机 会 解决 和 减轻 生产 的 全 部 20% 
洗涤 剂 不 良品 中 的 80%。 这 将 直接 帮助 他 们 将 不 良品 从 大 约 20% 降 低 到 4%, 也 可 以 理解 
为 约 16% 的 收入 增 量 。 


553 ”需要 注意 的 几 点 


在 解决 问题 的 整个 过 程 中 ， 本 书 采取 了 一 个 简单 易 行 的 方法 。 可 能 还 有 很 多 不 同 其 
至 更 好 的 替代 方法 。 但 是 差别 可 能 在 于 解析 问题 的 方式 ， 甚 至 是 解决 方案 中 采用 的 技术 
和 统计 检验 。 当 对 从 机 器 学 习 或 统计 技术 中 获得 的 结果 不 甚 满意 时 ， 很 快 就 开始 尝试 另 
一 种 方法 。 这 种 方法 绝对 有 效 ， 但 可 能 不 是 最 好 或 最 理想 的 方法 。 有 很 多 方法 可 以 通过 
在 很 大 程度 上 调整 和 校准 模型 ， 进 一 步 微调 模型 ， 而 不 用 选择 另 一 种 技术 。 列 举 这 些 方 
法 是 一 个 非常 大 的 课题 ， 无 法 在 本 章 的 一 小 节 中 就 能 合理 涵盖 。 本 书 的 学 习 路 径 着 重 于 
投入 学 习 构建 各 种 技能 来 解决 问题 。 

同样 ， 在 本 书 的 用 例 中 ， 我 们 发 现 随机 森林 模型 给 出 了 最 好 结果 。 但 是 这 并 不 意味 
着 随机 森林 模型 总 是 超越 讨论 过 的 或 在 行业 中 可 用 的 其 他 技术 。 这 些 结果 纯粹 是 我 们 用 
于 用 例 数据 时 所 得 出 的 。 不 同 的 用 例会 有 不 同 的 数据 维度 ， 而 不 同 的 模式 可 能 会 有 不 同 
的 更 适合 的 技术 。 本 书 一 直 建 议 ， 要 尽 可 能 地 探索 数据 以 了 解 模 式 ， 采 用 各 种 不 同 的 技 
术 进 行 检验 ， 观 察 哪 一 种 技术 能 够 提供 最 好 的 结果 。 许 多 数据 科学 家 常常 使 用 一 个 非常 
简单 快捷 的 方法 即 试 错 法 检验 ， 以 取得 较 好 的 结果 。 

最 后 ， 在 预测 建 模 练习 中 需要 进行 近代， 这样 才 能 洞察 更 好 的 结果 并 进一步 改进 。 
在 这 里 研究 的 迭代 只 是 多 次 迭代 中 的 其 中 一 次 ， 尽 管 这 一 次 失败 了 。 但 是 ， 强 烈 建议 读 
者 要 不 断 实 践 和 实验 ， 以 改进 结果 并 掌握 预测 性 分 析 。 


5.6 小 结 


本 章 将 预测 性 分 析 技 能 提高 到 了 一 个 新 水 平 ， 探 究 并 实践 了 尖端 的 机 器 学 习 和 深度 
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学 习 算法 ， 利 用 预测 能 力 改 进 结果 。 同 时 ， 研 究 了 机 器 学 习 中 的 集成 建 模 技术 ， 如 随机 
森林 和 极限 梯度 提升 算法 XGBoost。 并 且 还 学 习 了 应 用 多 层 感 知 器 〈 即 MLP) 的 神经 
网 络 和 深度 学 习 的 基础 知识 。 在 整个 练习 中 ， 我 方 团队 为 解决 用 例 取 得 了 更 好 的 改进 结 
果 ， 可 用 于 预测 生产 过 程 之 前 洗涤 剂 的 最 终 质量 。 最 终 为 约翰 和 他 的 团队 构建 了 一 个 有 
价值 的 解决 方案 ， 让 他 们 有 机 会 立即 采取 措施 减少 质量 欠 佳 的 产品 ， 并 将 整体 损失 减少 
约 16%。 

在 第 6 章 中 ， 将 以 速成 的 方式 去 解决 男 一 个 物 联网 用 例 ， 加 强 问题 解决 和 决策 科学 
技能 。 并 将 利用 一 个 章节 重 温 决策 科学 的 历程 ， 到 了 章节 末尾 后 ， 也 就 能 掌握 解决 问题 
的 技能 。 第 6 章 将 重点 解决 一 个 可 再 生 能 源 巨头 在 太阳 能 生产 领域 开创 性 的 物 联 网 用 例 。 
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决策 科学 在 解决 多 种 因素 的 问题 上 与 数据 科学 不 同 。 虽 然 这 可 能 是 一 个 永 无 休止 的 
争论 ， 但 是 决策 科学 更 趋向 采用 一 种 结构 框架 ， 即 由 商业 问题 驱动 的 探查 性 分 析 来 解决 
问题 。 而 数据 科学 可 被 定义 为 由 数据 驱动 分 析 和 建 模 的 一 个 更 复杂 的 版 本 。 本 书 的 问题 
解决 方法 更 符合 决策 科学 。 

在 第 2 章 “ 物 联网 问题 体系 研究 和 用 例 设计 ”中 ， 深 入 探究 一 个 物 联网 商业 用 例 。 
接着 对 这 个 问题 进行 解析 ， 运 用 “问题 解决 框架 ”设计 了 一 个 解决 方案 。 这 帮助 详细 地 
构建 出 一 个 解决 问题 的 蓝图 。 而 在 第 3 章 “ 探 索性 决策 科学 在 物 联网 中 的 应 用 内 容 和 原 
因 ” 中 ， 尝 试用 第 2 章 “ 物 联网 问题 体系 研究 和 用 例 设 计 ” 的 方法 解决 这 个 问题 。 回 答 
了 “是 什么 ”和 “为 什么 ”的 问题 ， 因 此 设计 出 一 个 简化 的 解决 方案 。 之 后 ， 在 第 4 章 
“预测 性 分 析 在 物 联网 中 的 应 用 ”中 ， 通 过 预测 性 分 析 ， 使 解决 方案 〈 离 我 们 的 目标 ) 
更 近 一 步 ， 同 时 也 回答 了 “ 何 时 ”的 问题 。 在 第 5 章 “ 利 用 机 器 学 习 增强 物 联 网 预测 性 
分 析 ” 中 ， 采 用 了 机 器 学 习 算法 来 提高 预测 准确 度 并 更 好 地 解决 问题 。 

解决 问题 的 整个 过 程 占据 了 本 书 4 个 章节 ， 在 每 一 个 阶段 都 详细 介绍 了 解决 问题 的 
不 同方 法 。 在 本 章 中 ， 将 解决 一 个 新 领域 中 的 全 新 物 联网 用 例 。 至 本 章 末尾 时 ， 会 对 整 
个 用 例 的 解决 方案 进行 总 结 ， 吸 取 之 前 的 学 习 经 验 来 起 草 解决 方案 。 首 先 ， 采 用 同样 的 
问题 解决 方式 ， 即 使 用 结构 化 的 问题 解决 框架 去 解析 问题 和 设计 ) 方法 。 而 后 ， 从 数 
据 探 索 阶段 开始 ， 快 捷 迅 速 地 解决 问题 。 在 本 章 的 最 后 ， 将 以 速成 的 方式 加 强 决策 科学 
问题 解决 方面 的 学 习 。 

本 章 将 涵盖 以 下 主题 。 

口 ”搭建 问题 的 背景 信息 。 

解析 问题 并 设计 方法 。 

探索 性 数据 分 析 和 特征 工程 。 
构建 用 例 的 预测 模型 。 

汇总 解决 方案 。 


DOGUOCZAO 


61 搭建 问题 的 背景 信息 


本 章 采用 一 个 全 新 的 可 再 生 能 源 领域 的 物 联 网 用 例 。 假 设 一 家 跨国 集团 巨头 进军 可 
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再 生 能 源 领域 ， 为 离 网 地 区 提供 太阳 能 服务 。 有 一 些 地 区 在 电力 电缆 铺设 上 ， 远 比 给 发 
电机 配置 柴油 昂贵 得 多 ， 而 该 公司 的 目标 就 是 为 这 些 地 区 提供 端 到 端的 太阳 能 设备 。 非 
洲 的 许多 热带 国家 正 是 如 此 ， 以 他 们 为 例 再 好 不 过 了 。 比 如 乌干达 的 一 个 小 村 庄 ， 那 里 
有 大 量 充足 的 太阳 能 ， 但 是 一 点 电 都 没有 。 许 多 中 小 企业 日 常 运营 就 依靠 柴油 发 电机 。 
由 于 柴油 的 运输 和 配置 ， 时 不 时 对 柴油 发 电机 的 维护 和 维修 ， 加 上 需要 采购 必需 的 柴油 
去 发 电 ， 此 类 情况 所 产生 的 巨额 开销 造成 这 些 企业 的 运营 费用 超出 了 收 支 平衡 。 

该 公司 设计 了 一 个 解决 方案 ， 让 任何 对 电力 有 需求 的 企业 ， 无 论 大 小 ， 都 可 从 太阳 
那里 获得 清洁 和 具有 成 本 效益 的 能 源 用 于 日 常 运营 ， 从 而 实现 自给 自足 。 太 阳 能 电池 板 
安装 在 建筑 物 的 屋顶 或 企业 的 场所 内 。 其 余 的 基础 设施 安装 在 建筑 物 的 其 中 一 个 房间 内 
以 连接 电池 、 逆 变 器 和 其 他 后 勤 。 白 天 时 ， 太 阳 能 电池 板 不 仅 为 电池 充电 ， 也 为 建筑 物 
内 的 仪器 和 其 他 设备 的 照明 和 供电 提供 电力 。 


6.1.1 真正 的 问题 


这 个 解决 方案 的 主要 障碍 在 于 太阳 能 发 电量 是 否 能 够 满足 次 日 运营 所 需 。 

这 家 公司 的 行政 主管 负责 处 理 日 常 运营 的 一 切 事宜 ， 以 保证 工作 能 够 顺利 展开 。 由 
于 太阳 能 发 电 完全 依赖 于 天 气 条件 ， 所 以 如 果 没 有 足够 的 能 量 产 生 ， 配 置 柴油 去 发 动 柴 
油 发 电机 将 是 至 关 重 要 的 一 项 工作 。 如 果 由 于 恶劣 的 天 气 条 件 ， 或 者 为 了 满足 紧急 业务 
需求 耗费 了 超过 平常 所 需 的 太阳 能 电量 ， 而 太阳 能 电池 板 又 不 能 产生 足够 的 电能 ， 那 么 
业务 将 会 蒙受 巨大 的 损失 。 

解决 这 个 问题 的 方法 各 式 各 样 。 该 公司 可 以 过 度 规 划 基础 设施 ， 把 电能 短缺 的 可 能 
性 降 至 最 小 ， 即 产能 比 要 求 的 翻 一 番 。 但 是 ， 这 个 解决 方案 根本 行 不 通 。 对 一 项 既定 的 
太阳 能 技术 过 度 规划 并 不 是 一 笔 有 利 可 图 的 交易 。 或 者 ， 也 可 以 要 求 该 行政 主管 预先 准 
备 好 柴油 钠 ， 当 太阳 能 发 电量 过 低 时 ， 可 用 发 电机 作为 备用 。 这 对 于 行政 主管 而 言 ， 也 
不 是 一 个 可 行 的 解决 方案 ， 因 为 每 天 都 备用 柴油 色 也 是 一 笔 昂贵 的 交易 。 

为 了 直观 地 解决 这 个 问题 ， 这 家 公司 求助 于 我 们 。 他 们 希望 帮助 构建 一 个 具有 成 本 
效益 和 可 行 的 方案 ， 以 解决 掉 这 一 问题 。 最 简单 的 一 个 解决 方案 就 是 ， 预 测 一 天 中 产生 
的 太阳 能 是 否 足以 满足 当天 的 运营 ， 并 且 要 求 至 少 提前 一 天 预测 。 

概 而 言 之 ， 如 果 管理 人 员 今 天 得 知 ， 明 天 太阳 能 发 电量 很 有 可 能 不 足以 支撑 当天 的 
运营 ， 他 将 能 够 更 好 地 安排 发 电机 运行 所 需 的 柴油 ， 以 避免 发 生 商 业 损 失 。 


6.1.2” 接 下 来 做 什么 


现在 已 经 获得 了 足够 的 背景 信息 用 以 解决 这 个 问题 ， 下 面 就 需要 运用 之 前 研究 的 框 
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架 , 更 详细 地 解析 问题 并 进行 设计 。 与 前 面 的 用 例 不 同 , 这 里 的 问题 更 加 集中 也 更 加 清晰 ， 
并 已 对 需要 解决 什么 问题 一 清二 楚 。 更 具体 而 言 ， 在 这 个 用 例 中 要 回答 “ 何 时 ”的 问题 ， 
因此 本 章 的 数据 探索 和 研究 会 与 前 面 的 用 例 略 有 不 同 。 此 外 ， 为 了 设计 方法 和 探究 问题 的 
全 貌 ， 要 去 访问 一 位 能 够 帮助 我 们 更 透彻 地 理解 问题 ， 而 且 能 够 从 领域 的 专业 角度 回答 
我 们 问题 的 行业 专家 。 


62 解析 问题 并 设计 方法 


为 了 对 商业 问题 做 出 解析 ， 将 应 用 第 2 章 “ 物 联网 问题 体系 研究 和 用 例 设计 ”中 的 
SCQ 框架 ， 这 会 有 助 于 明确 界定 当前 的 情景 、 冲 突 和 主要 疑问 。 在 解析 问题 之 后 ， 将 通 
过 研究 、 思 考 和 头脑 风暴 来 设计 问题 的 解决 方案 ， 如 图 6.1 所 示 。 


| | 
LM) 


太阳 能 发 电 的 不 确定 性 ， 使 得 NES 
解决 方案 对 客户 和 他 们 的 消费 


GELLEB is : 研究 影响 运营 能 源 短缺 
者 都 是 不 可 行 的 i 的 各 种 因素 。 


一 家 跨国 企业 巨头 希望 销 


宁国 全 业 天 i 构建 一 个 工具 提前 预测 
售 太阳 能 即 服务 《SEaas SHEER f 产生 的 太阳 能 电量 是 否 


足够 用 于 消耗 。 


是 什么 因素 对 运营 时 能 量 短缺 
产生 影响 ? 


一 它们 是 如 何 影响 能 量 的 产生 
和 消耗 的 ? 


图 6.1 
6.2.1 构建 一 个 SCQ 〈 即 情景 -冲突 -疑问 ) 方案 


使 用 SCQ 对 需要 解答 的 情景 、 冲 突 、 疑 问 和 解决 办 法 进行 详细 描述 ， 清 清楚 楚 地 对 
这 个 问题 做 出 了 解析 。 

为 了 更 详细 地 设计 方法 ， 需 要 探究 和 构思 与 该 领域 有 关 的 许多 事情 。 此 外 ， 还 要 拜 
访 一 位 行业 专家 ， 他 可 以 提供 内 部 系统 在 基础 架构 部 署 之 地 是 如 何 工作 的 见解 。 


6.2.2 研究 


为 了 详细 研究 这 个 问题 ， 要 求 更 透彻 地 探究 问题 的 动态 。 需 要 知道 太阳 能 电池 板 装 
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置 的 大 致 工作 原理 ， 不 同类 型 的 太阳 能 电池 板 安装 ， 正 常 运行 时 遇 到 的 问题 等 。 此 外 ， 
如 果 对 太阳 能 电池 板 生态 系统 和 不 同 组 件 了 解 很 清楚 ， 也 会 大 有 益处 。 

下 面 是 策划 出 的 一 个 问题 清单 并 附 上 一 些 简短 的 解释 (与 行业 专家 讨论 并 通过 互联 
网 搜索 研究 ， 可 帮助 获得 以 下 信息 ) 。 

1. 太阳 能 电池 板 生态 系统 如 何 工作 

太阳 能 电池 板 生态 系统 包括 不 同 的 资产 ， 例 如 太阳 能 电池 板 ， 暴 露 于 阳光 下 时 可 将 
太阳 能 转换 为 电能 ， 电 池 用 于 在 电池 板 充电 时 存储 能 量 ， 逆 变 器 将 电池 的 直流 电 〈DC) 
转换 为 交流 电 CAC) 等。 一些 组 件 可 直接 使 用 电池 的 直流 电 ; 其 余 的 则 通过 逆 变 器 使 用 
交流 电 。 

2. 运作 


当 太 阳光 线 入 射 到 太阳 能 电池 板 上 时 ， 它 允许 光子 即 光 的 粒子 从 原子 中 击发 释放 出 
电子 ， 从 而 产生 电流 。 太 阳 能 电池 板 实际 上 包含 许多 称 为 光伏 电池 的 小 型 装置 。 许 多 电 
池 连 接 在 一 起 组 成 了 太阳 能 电池 板 。 所 产生 的 电能 储存 在 电池 中 ， 或 者 〈 当 电池 充满 电 
或 发 电 过 剩 时 ) 有 时 直 供 使 用 。 充 电 控制 器 可 防止 电池 过 度 充电 。 根 据 设 备 的 类 型 ， 运 
行 所 需 的 电源 可 以 是 直流 电 或 交流 电 。 万 一 交流 负载 ， 可 从 逆 变 器 〈 将 电池 的 直流 电 转 
换 为 交流 电 ) 或 直接 从 电池 提取 直流 电 所 需 的 电源 。 

图 6.2 为 一 个 太阳 能 电池 板 基 本 运作 的 概览 图 。 
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3. 不 同类 型 的 太阳 能 电池 板 安装 有 哪些 不 同 

安装 不 同类 型 的 太阳 能 电池 板 时 ， 其 安装 差别 基本 上 可 通过 是 否 有 电网 支持 来 确定 。 
有 些 配 置 可 能 是 完全 离 网 的 解决 方案 ， 换 言 之 ， 根 本 没有 电网 的 支持 。 所 以 如 果 电池 没 
电 了 ， 那 就 没有 其 他 能 量 来 源 了 。 

一 些 太阳 能 电池 板 有 电网 支持 ， 因 此 可 将 它们 配置 成 在 电池 没 电 或 没有 能 量 的 情况 
下 ， 从 电网 给 电池 充电 ， 或 者 当 电池 充满 电 时 也 可 以 将 过 剩 的 能 量 发 送 到 电网 ， 并 且 其 
他 负载 不 需要 额外 的 能 量 。 

4. 依靠 太阳 能 电池 板 的 运营 面临 哪些 挑战 

离 网 解决 方案 面临 的 最 大 挑战 是 ， 系 统 除了 太阳 以 外 没有 其 他 产生 能 量 的 方法 。 如 
果 电池 没 电 了 ， 唯 一 的 办 法 是 配置 一 个 发 电机 ， 等 到 次 日 太阳 升 起 。 

另外 一 些 是 有 电网 支持 的 。 如 果 遇 到 低 发 电量 或 电量 大 量 消耗 的 情况 ， 可 利用 电网 
给 电池 充电 以 满足 需求 。 而 且 ， 当 电池 充满 电 时 ， 所 产生 的 过 剩 电能 也 可 以 回馈 给 电网 。 

同样 ， 需 要 定期 清洁 太阳 能 电池 板 以 保持 无 企 。 累 积 的 灰尘 和 其 他 污垢 颗粒 会 减少 
阳光 的 照射 ， 从 而 减少 能 量 的 产生 。 


6.2.3 ”太阳 能 领域 的 背景 信息 


以 上 调研 笔记 让 我 们 从 更 高 层次 对 太阳 能 电池 板 配置 取得 了 一 定 认 识 。 在 这 里 鼓励 
读者 继续 去 探索 和 研究 更 多 内 容 。 现 在 ， 对 太阳 能 电池 板 及 其 基础 设施 已 一 清二 楚 ， 下 
面 将 深入 该 领域 ， 探 查 更 多 问题 相关 的 细节 。 

这 家 公司 早已 在 热带 国家 多 处 地 点 安装 了 太阳 能 电池 板 ， 同 时 作为 他 们 早期 试验 的 
一 部 分 。 这 些 地 点 基本 上 都 是 为 中 小 型 企业 量 身 定做 的 ， 这 些 企业 日 常 运 营 只 需 2~3 千 
瓦 容量 的 电池 板 就 足够 了 。 我 方 团队 从 一 个 热带 国家 的 发 电厂 获得 了 完全 离 网 地 区 的 数 
据 。 该 发 电厂 为 一 家 拥有 大 约 20 张 病床 ， 可 以 满足 每 天 约 50 名 病人 的 基本 医疗 用 品 需 
求 的 医院 供电 。 所 有 3 个 负载 都 从 医院 的 太阳 能 基础 设施 中 获取 电源 。 交 流 负载 为 医疗 
仪器 、 计 算 机 和 其 他 设备 供电 ， 直 流 负载 为 外 部 照明 供电 ， 另 一 直流 负载 则 为 内 部 照明 
供电 。 太 阳 能 电池 板 放置 在 两 层 高 的 建筑 物 屋顶 上 。 一 楼 的 一 个 房间 里 装 有 其 余 的 基础 
设施 ， 即 逆 变 器 、 电 池 、 充 电 控制 器 和 电费 。 

在 太阳 能 基础 设施 的 各 个 组 件 中 安装 有 传感器 ， 以 测量 各 种 参数 。 太 阳 能 电池 板 配 
备 有 传感器 ， 用 于 测量 电压 、 瞬 时 功率 、 电 流 和 产生 的 太阳 能 。 同 样 ， 电 池 还 装配 了 一 
个 传感器 来 测量 电压 、 功 率 和 电流 的 参数 。 逆 变 器 有 测量 类 似 参数 的 另外 一 个 传感器 。 
环境 传感器 测量 电池 板 的 温度 ， 而 辐 照 度 传感器 测量 电池 板 上 的 辐 照 度 。 辐 照度 只 不 过 
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是 电池 板 上 的 太阳 光 总 量 。 该 电池 板 是 一 个 3 千瓦 的 电池 板 ， 并 且 不 支持 电网 充电 或 放 
电 。 电 池 、 逆 变 器 和 电池 板 按照 预定 的 时 间 间 隔 进行 维护 。 

如 果 电池 没 电 了 ， 医 院 的 主管 人 员 用 柴油 机 给 发 电机 发 电 。 附 近 的 地 方 没有 加 油 站 ， 
因此 派 一 个 人 去 远 处 的 加 油 站 取 柴 油 ， 来 回 需要 大 约 1 一 2 个 小 时 。 


6.2.4 设计 方法 


有 了 足够 的 领域 背景 信息 后 ， 此 时 可 以 开始 举行 头脑 风暴 会 议 ， 构 想 哪些 因素 会 千 
成 诊所 日 常 运营 缺乏 电力 的 情况 。 运 用 类 似 第 2 章 “ 物 联网 问题 体系 研究 和 用 例 设计 ” 
中 用 到 的 图 表 逐 一 列举 这 些 因素 ， 如 图 6.3 所 示 。 


太阳 能 发 电量 较 低 
消耗 的 能 量 比 平时 的 高 太阳 能 发 电量 较 低 
一 多云 的 环境 条 件 -电池 利 余 电 量 很 少 
des 电池 板 上 积 满 灰 全 


电池 配置 错 误 :< 也 到 因素 全 造成 运营 没有 电力 支持 的 情 沈 ? 


过 去 连续 几 天 部 是 低 发 电量 过 去 几 天 的 能 量 消耗 量 很 大 


FAEERE _ 电 池 泄漏 或 故障 
地 变 器 运行 问题 太阳 能 电池 板 的 错误 配置 导致 能 量 产生 减少 


图 6.3 


在 特定 的 某 一 天 里 太阳 能 发 电量 不 足 即 电力 中 断 ， 可 能 有 各 种 各 样 的 原因 。 图 6.3 

只 举 出 了 可 能 造成 问题 的 一 些 潜在 原因 。 有 可 能 是 由 于 太阳 能 发 电量 太 低 , 也 可 能 是 由 
于 电池 板 配 置 错误 、 电 池 板 积 尘 或 多 云 的 环境 条 件 。 同 样 地 ， 那 一 天 或 者 也 可 能 是 前 面 
3—4 天 的 能 量 消耗 也 许 较 高 ， 或 者 也 可 能 是 两 者 兼 而 有 之 ， 即 当天 或 者 过 去 几 天 里 太阳 
能 发 电量 都 较 低 ， 但 能 量 消耗 却 较 高 。 逆 变 器 可 能 由 于 运行 故障 而 导致 电源 突然 放电 ， 
也 成 为 其 中 一 个 潜在 原因 ， 同 样 ， 因 为 电池 故障 或 前 一 天 电池 电量 不 足 ， 也 可 能 会 出 现 
问题 。 
由 于 问题 更 多 集中 在 预测 性 分 析 上 ， 可 能 不 需要 创建 假设 矩阵 来 优先 考虑 和 收集 所 
有 的 假设 。 相 反 ， 可 采用 前 面 列 出 的 各 种 因素 去 帮助 了 解 如 何 解决 预测 问题 。 这 里 可 以 
利用 每 个 数据 维度 来 构建 解决 方案 的 预测 模型 。 在 图 6.3 中 , 通过 头脑 风暴 列举 出 的 几 个 
维度 或 因素 可 能 在 数据 中 没有 。 但 是 在 对 数据 全 貌 有 了 全 面 了 解 后 ， 将 重新 调整 原来 的 
因素 /维度 列表 。 

接 下 来 ， 作 为 设计 方法 的 一 部 分 ， 可 以 列 出 需要 执行 的 步骤 用 以 解决 问题 。 现 已 经 
解析 了 这 个 问题 ， 确 定 了 可 能 造成 这 个 问题 的 潜在 因素 。 此 时 应 该 探索 数据 的 全 貌 ， 以 
了 解 现 有 什么 样 的 数据 以 及 应 该 如 何 利用 这 些 数据 。 随 后 ， 将 对 数据 进行 探索 性 数据 分 
析 ， 揭 示 可 以 更 好 地 构建 预测 模型 的 模式 。 从 探索 性 数据 分 析 中 获得 的 领域 知识 和 结果 ， 
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可 以 进一步 用 于 创建 特征 ， 即 特征 工程 。 通 过 为 模型 提供 各 种 特征 和 预测 因子 ， 可 以 专 
门 为 用 例 处 理 加 工 数据 。 由 于 数据 粒度 是 传感器 层级 的 ， 而 且 按 分 钟 来 捕获 数据 ， 须 用 
数据 工程 来 处 理 数据 。 最 终 会 为 用 例 构建 机 器 学 习 /预测 模型 ， 同 时 将 尝试 预测 第 二 天 的 
值 是 否 为 “0”〔 即 能 量 可 持续 ) ,或 者 值 为 “1”〈 即 没有 可 持续 能 量 ) ， 以 此 提醒 该 
行政 主管 在 第 二 天 运营 时 需要 做 好 后 备 工作 。 

整个 方法 的 可 视 化 流程 如 图 6.4 所 示 。 


解析 问题 CN 


研究 、 构 想 和 头脑 风暴 
导致 问题 的 各 种 因素 


6.2.5 ”研究 数据 全 貌 


此 处 用 例 的 数据 ， 是 从 安装 在 太阳 能 电池 板 生态 系统 不 同 设 备 上 的 各 种 传感器 中 获 
取 的 。 这 些 传感器 按 分 钟 频 率 捕获 数据 后 将 其 推送 到 云端 。 有 一 个 传感器 数据 的 转 储 ， 
可 供 该 云端 存储 一 个 地 点 在 4 个 月 内 产生 的 各 种 参数 。 

图 6.5 所 示 为 太阳 能 电池 板 架构 和 抓 取 不 同 数据 点 的 传感器 的 可 视 化 图 表 。 

传感器 分 别 安装 在 太阳 能 电池 板 的 上 方 和 下 方 、 电 池 中 、 逆 变 器 前 后 ， 最 后 安装 在 
负载 上 (一 个 负载 类 似 于 单个 设备 测量 的 能 耗 的 一 个 终端 ， 也 就 是 说 ， 在 一 座 4 层 建筑 
中 ， 每 个 楼 层 都 可 被 认为 是 一 个 负载 ) 。 总 之 ， 这 些 传感器 有 助 于 捕获 太阳 能 电池 板 、 
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电池 和 各 个 直流 负载 的 电压 、 瞬 时 功率 和 电流 。 同 时 ， 也 能 够 捕获 到 一 个 交流 负载 和 两 
个 直流 负载 所 消耗 的 能 量 以 及 太阳 能 电池 板 所 产生 的 能 量 。 太 阳 能 电池 板 上 方 的 传感器 
捕捉 电池 板 的 温度 和 辐 照 度 〈 日 晒 》 。 如 前 所 述 ， 目 前 在 用 例 中 所 举例 的 太阳 能 电池 板 
安装 没有 电网 支持 ， 因 此 这 里 没有 到 电网 的 充电 或 放电 。 


传感器 测 量 
。 ”电池 板 温 度 
CO o SRE 


传感器 测量 

e ”电池 电压 
e ”电池 电流 
”电池 功率 


^ 9 BE 
e 道 变 器 输出 功率 Ì 
e xs 


图 6.5 


传感器 测量 由 太阳 能 电池 板 产 生 并 由 交流 负载 和 直流 负载 消耗 的 能 量 ， 而 且 也 测量 
两 条 记录 之 间 的 相应 时 间 间 隔 内 《〈 即 约 1 分 钟 ) 产生 /消耗 的 能 量 。 


63 探索 性 数据 分 析 与 特征 工程 


此 时 将 重点 深入 探索 数据 ,进行 探索 性 数据 分 析 。 以 下 代码 从 本 人 的 公共 Git 存储 库 
下 载 数 据 并 创建 一 个 数据 框 。 先 从 较 高 层面 去 探索 数据 开始 : 
>#Read Solar Panel IoT use case CSV data from public repository 


(从 公共 存储 库 中 读 取 太阳 能 电池 板 物 联网 用 例 的 csv 数据 ) 


EXER 
"https://github.com/j0j062000/Smarter Decisions/raw/master/Chapter$206 
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/Data/Final SolarData.csv" 


>#Load the data into a dataframe 
(将 数据 加 载 到 一 个 数据 框 中 ) 


>data<-read.csv (url) 


>#Check the dimensions of the dataframe 
(检查 该 数据 框 的 维度 ) 

>dim (data) 

[1] 119296 23 


>#Take a glimpse into each column of the dataframe 
(浏览 数据 框 的 每 一 列 ) 


>str (data) 


'data. frame': 119296 obs. of 23 variables: 


$ location : Factor w/ 1 level "Peru": 111 ... 
$ date time : Factor w/ 119308 levels "2015-12-02 
00:01:40",... 

$ solarvoltage : nun 0000000000. 

$ solarcurrent : num 0000000000. 

$ solarenergy :num 0000000000. 

$ solarpower :ma 0000000000. 

$ batteryvoltage : num 98.8 98.5 98.6 98.6 . 

$ batterycurrent : num. 0000000000. 

$ batterypower :mm 0000000000. 

$ load energy1 :nn Y O00 P a N E 

$ load power1 $ pum 192 185 176 189 179 <<; 

$ load current1 < pam i 0T 0:98: 0:93 L 0L sae 

$ load voltage1 : num 189 188 188 189 189 ... 

$ load energy2 Dn OOL ODO O Ts 

$ load power2 :Snum A -7581:3387:8/ 7853075 

s load current2 : num 0.38 0.43 0.46 0.46 ... 

$ load voltage2 : num 189 188 188 189 189 ... 

$ inverter input power : num 0.52 0.52 0.66 0.42 ... 

$ inverter output power: num 0.32 0.32 0.45 0.22 ... 
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$ inverter input energy s pum 0.01 0 0:03 0.01 — 

$ inverter output energy zooan 0 0°01 00r 0 0r 0 0 
$ irradiance z ipe Oso 0 o De 1 o o e 7 —— 
$ temperature : num 38.4 38.4 38.4 38.4 ... 


载 入 的 数据 是 一 个 含有 119266 行 和 23 列 数据 的 数据 框 。 如 果 用 str 命令 来 查看 这 些 
列 中 的 数据 类 型 ， 可 以 看 到 除了 date time 和 location 之 外 ， 其 他 所 有 的 变量 都 是 数值 型 。 
该 location 〈 即 地 点 ) 只 包含 值 ( 即 Peru) ， 而 date time 捕获 时 间 惟 ， 并 且 对 每 行 都 是 
唯一 的 。 

下 面 看 看 有 多 少 天 的 数据 以 及 它们 是 如 何 分 布 的 : 

>#Load the R package required for date operations 


(加 载 用 于 日 期 操作 所 需 的 R 包 ) 
>library (lubridate) 


>#Convert the string to a timestamp format 
(将 字符 串 转换 为 一 个 时 间 戳 格式 ) 
»data$date time«-ymd hms (data$date time) 


»min(data$date time) 
[1] "2015-12-02 00:00:27 UTC" 


»max(data$date time) 

[1] "2016-03-14 22:26:52 UTC" 

可 见 ， 大 约 有 3.5 个 月 的 数据 。 但 是 我 们 是 否 有 这 段 时 间 内 每 一 天 的 数据 ? 下 面 来 仔细 
观察 : 

>#Counting the number of distinct days in the data 

(计算 数据 中 不 同 天 数 的 数量 ) 

>length (unique (date (data$date time))) 

[1] 104 


>#Calculating the difference between min and max date time values 
(计算 最 小 和 最 大 日 期 时 间 值 之 间 的 差 ) 

> difftime(ymd hms (max(data$date time)),ymd hms (min(data$date time))) 
Time difference of 103.9342 days 


没 错 ， 这 段 时 间 内 每 一 天 的 数据 都 有 。 
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接 下 来 逐个 讨论 数据 中 的 核心 参数 。 为 了 使 数据 可 视 化 ， 举 个 例子 如 一 天 的 样本 ， 
观察 参数 是 如 何 随 着 时 间 的 推移 而 变化 的 。 根 据 调查 结果 ， 我 们 会 在 较 长 一 段 时 间 内 做 
进一步 探索 。 

以 下 从 太阳 能 电池 板 参 数 开始 ， 即 电池 板 电 压 〈Solar Voltage) 、 电 池 板 功率 (Solar 
Power) 、 太 阳 能 (Solar Energy) 和 电池 板 电流 (Solar Current) 。 


>#Selecting the Solar panel related parameters 
(选择 太阳 能 电池 板 相 关 参 数 ) 
>cols<- c("solarpower","solarvoltage","solarenergy","solarcurrent") 


>summary (data[,cols]) 


solarpower solarvoltage solarenergy solarcurrent 
Min. $ 0.0 Min. s 0:00 Min. :0.000000 Min. : 0.000 
1st Qu. : 0.0 1st Qu.: 0.00 1st Qu.:0.000000 1st Qu. : 0.000 
Median : 0.0 Median : 0.00 Median :0.000000 Median : 1.170 
Mean : 508.3 Mean : 81.55 Mean :0.008706 Mean Ce 
3rd Qu. :1130.6 3rd Qu. :182.39 3rd Qu.:0.020000 3rd Qu. : 6.300 
Max. :2981.0 Max. :198.75 Max. :3.230000 Max. :18.350 


可 以 发 现 ， 所 有 太阳 能 电池 板 参数 的 最 小 值 为 零 ， 而 不 同 参数 的 最 大 值 是 有 变化 的 。 
数据 看 起 来 有 点 稀疏 ， 但 这 也 在 预料 之 中 。 太 阳 能 电池 板 只 在 太阳 出 来 时 才 会 活跃 起 来 ， 
而 每 天 日 照 时 间 大 约 10—12 小 时 。 下 面 将 这 些 参数 在 一 天 中 的 表现 可 视 化 。 


>#Select any one day for a sample 
(选择 任意 一 天 作为 一 个 样本 ) 
»day«-"2015-12-12" 


»4Subset the data for the sample day 
(将 该 样本 日 的 数据 划分 子 集 ) 
>sample<-data [date (data$date time)--day,] 


»summary (sample[,cols]) 


solarpower solarvoltage solarenergy solarcurrent 
Min. 22050) Min. : 0.00 Min. :0.000000 Min. : 0.000 
1st Qu. : 0.0 1st Qu.: 0.00 1st Qu.:0.000000 1st Qu. : 0.000 
Median : 0.0 Median : 0.00 Median :0.000000 Median : 0.000 
Mean : 459.1 Mean : 85.21 Mean :0.007726 Mean < 2.922 
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3rd Qu. : 993.3 3rd Qu.:184.02 3rd Qu.:0.010000 3rd Qu. : 5.370 
Max. :2173.6 Max. :191.62 Max. :0.090000 Max. z 12:790 


太阳 能 电池 板 参数 一 天 的 摘要 看 起 来 几乎 与 整个 数据 集 同步 。 接 着 来 观察 这 些 参 数 
在 一 天 内 的 分 布 情况 ， 如 图 6.6 所 示 。 


»library (ggplot2) 


»4Plotting 4 line charts for the 4 different parameters 

(分 别 给 4 个 不 同 参数 绘制 相应 的 折线 图 ) 
>ggplot (sample, aes (x-date time, y-solarvoltage))-*geom line() 
»ggplot (sample,aes(x-date time, y-solarcurrent))-*geom line() 
>ggplot (sample, aes (x-date time, y-solarpower))-*geom line() 


>ggplot (sample, aes (x-date time, y-solarenergy))-*geom line() 


图 6.6 


图 6.6 使 用 的 是 样本 日 ( 即 2015 年 12 月 12 日 ) 的 数据 。 如 预料 之 中 的 一 样 ， 只 有 
当 太阳 照射 时 ， 参 数 才 具有 一 个 有 效 值 。x 轴 表 示 一 天 中 的 时 间 ， 可 以 观察 到 太阳 照射 时 
太阳 能 电池 板 活跃 了 约 12 小 时 ,也 就 是 大 约 上 午 6 点 到 下 午 6 点。 每 隔 一 分 钟 计算 一 次 发 
电量 〈 右 侧 图 的 最 顶端 ) 。 图 6.7 绘制 一 张 帕 累 托 图 来 研究 一 天 中 的 能 量 累 积 生成 。 
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> sample$solarenergy cumsum«-cumsum (sample$solarenergy) 


> ggplot(sample,aes(x-date time,y-solarenergy cumsum))-*geom line() 
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图 6.7 


MEF 6 点 开始 产生 能 量 ， 一 直到 晚上 6 点 。 总 的 来 说 ， 可 以 看 到 一 天 之 内 9 一 10 
个 单位 的 能 量 在 产生 。 在 图 6.7 中 用 虚线 框 突出 显示 的 是 能 量 产生 曲线 。 

所 以 发 现 ， 当 太阳 光照 足以 让 电池 板 产 生 一 些 有 限 的 电量 时 ， 所 有 的 太阳 能 电池 板 
参数 都 是 活跃 的 。 因 而 可 以 大 概 得 出 结论 ， 在 所 举例 的 地 点 上 ， 太 阳 照 射 了 大 约 12 个 小 
时 。 紧 接着 看 看 在 这 段 时 间 里 ， 在 几 天 之 内 发 电量 是 如 何 变化 的 : 


»library (dplyr) 


o 


»4Calculate Total Solar energy generated for each day 
〈 计 算 每 天 太阳 能 总 发 电量 ) 
2data$date«-as.Date(data$date time) 

»new«-data $»$ group by(location,date) %>% 


summarise (total senergy-sum(solarenergy)) 


»summary (new$total senergy) 
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Min. 1st Qu. Median Mean 3rd Qu. Max. 
4.960 9.275 10.030 9.987 10.900 13.020 


该 分 布 清楚 地 表明 ， 大 部 分 时 间 大 约 有 9—10 个 单位 的 能 量 产生 。 下 面 绘制 整个 时 
间 段 的 折线 图 ( 见 图 6.8) 。 这 会 有 助 于 了 解 在 一 个 时 间 段 内 的 季节 性 和 趋势 。 


> ggplot (new, aes (x-date,y-total senergy)) + 
geom line(colour-"blue",size-1)* 
theme (axis.text-element text (size-12), 
axis.title-element text(size-15,face-"bold")) * 
geom hline(yintercept = 11,colour-"red") 十 


geom hline(yintercept - 8,colour-"red") 
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图 6.8 


从 图 6.8 可 以 看 到 , 在 一 大 段 时 间 内 太阳 能 发 电量 在 8 一 11 单位 之 间 (用 稍微 宽 一 点 
的 窗口 ) 。 又 升 〈 突 然 增加 ) 和 又 降 〈 突 然 减 少 ) 的 现象 明显 ， 没 有 始终 如 一 的 模式 。 
不 过 整体 来 看 ，2 月 至 3 月 有 小 幅度 的 下 滑 ， 然 后 急剧 上 升 。 


6.3.1 能 量 消耗 和 能 量 产生 相 比 结果 如 何 


有 例 中 有 3 种 不 同 的 消耗 负载 一 一 两 个 直流 负载 和 一 个 交流 负载 。 下 面 来 探究 能 量 
消耗 在 数据 上 的 表现 。 与 太阳 能 类 似 ， 负 载 能 量 也 是 以 一 分 钟 的 时 间 间 隔 计算 的 。 可 将 


~ 
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这 些 数据 汇聚 成 一 天 的 数据 来 研究 模式 。 首先， 研究 每 分 钟 能 量 消耗 的 分 布 情况 。 
O +s: 
负载 是 一 个 术语 ， 用 于 定义 一 个 确定 的 消耗 源 。 在 一 栋 四 层 建筑 中 ， 可 以 将 每 个 楼 
层 定义 为 一 个 负载 。 在 此 用 例 中 ， 交 流 电 消耗 和 直流 电 消耗 是 分 开 的 ， 直 流 电 消耗 也 进 
一 步 分 为 内 部 照明 和 外 部 照明 。 


>cols<-c ("load energyl", "load energy2","inverter input energy") 


»summary (data[,cols]) 


load energy1 load energy2 inverter input energy 
Min. :0.00000 Min. :0.00000 Min. 10.000000 
1st Qu. :0.00000 1st Qu. :0.00000 1st Qu. :0.000000 
Median :0.00000 Median :0.00000 Median :0.000000 
Mean :0.00298 Mean :0.00161 Mean :0.004202 
3rd Qu. :0.01000 3rd Qu. :0.00000 3rd Qu. :0.007000 
Max. 2.01000 Max. :0.27000 Max. :1.162000 


HE Te THEE BC RS H2) t E EH P^ ^E RESCUE s AE ERE A dn 
图 6.9 所 示 。 
以 下 代码 采用 一 个 样本 日 的 数据 来 研究 其 分 布 : 


»day«-"2015-12-12" 


»4Collecting the consumption related parameters 
(收集 与 能 量 消耗 有 关 的 参数 ) 


»cols«-c ("load energyl","load energy2","inverter input energy") 


>#Taking a sample day's data 
〈 取 一 个 样本 日 的 数据 》 
>sample<-data [date (data$date time)--day,] 


»4Calaculating cumulative sum for the consumption parameters 
(计算 能 量 消耗 参数 的 累计 和 ) 

>sample$load energyl cumsum<-cumsum(sample$load energyl) 
»sample$load energy2 cumsum«-cumsum(sample$1oad energy2) 


»sample$inverter input energy cumsum«- 
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cumsum(sample$inverter input energy) 


»library (reshape2) 
»a«-melt (sample,id.vars-"date time", 
measure.vars-c("load energyl cumsum","load energy2 cumsum", 


"inverter input energy cumsum")) 


»4Plotting all 3 consumption trends for a day together 

(将 一 天 中 的 所 有 3 种 消耗 趋势 绘制 在 一 块 ) 

»ggplot(a,aes(x-date time, y-value,group-variable,colour-variable)) + 
geom line(size-1) * 
theme (axis.text-element text (size-12), 


axis.title-element text (size-15, face-"bold")) 


variable 
— load energy cumsum 
-一 load energy2 cumsum 


—— inverter input energy cumsum 


0- 


Dec 1200:00 ^ Dec1206:00 ^ Dec121200 ^ Dec121800 ^ Dec1300:00 
date time 


图 6.9 


负载 1 和 负载 2 以 及 交流 逆 变 器 负载 的 能 量 消耗 趋势 处 于 线性 增长 的 趋势 。 可 以 观 
察 到 负载 1 消耗 最 高 ， 负 载 2 则 有 最 低 的 消耗 ;而 逆 变 器 负载 消耗 位 于 两 者 之 间 。 下 面 
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来 看 看 能 量 产生 与 3 种 负荷 的 综合 消耗 相 比 较 的 情况 如 何 ， 如 图 6.10 所 示 。 


>#Calculating the energy consumed and generated at a day level 
(计算 一 天 中 消耗 和 产生 的 能 量 ) 
»new«-data %>% group by(location,date) %>% 
summarise (total solarenergy-sum(solarenergy), 
total loadlenergy-sum(load energyl), 
total load2energy-sum(load energy2), 
total invenergy-sum(inverter input energy) 


) 


»4Calculating the total consumption from all 3 loads together 
(计算 所 有 3 个 负载 的 总 消耗 量 ) 
»new$total consumption<-new$total loadlenergy+ 

new$total load2energy* 


new$total invenergy 


»summary (new$total consumption) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
5.830 8.743 9.979 10.090 11.360 14.820 


>#Creating a melted dataframe for combined plot 
(创建 一 个 融合 型 数据 框 组 合 绘图 ) 
>a<-melt (new, id.vars="date",measure.vars = 


c("total solarenergy","total consumption")) 


># Plotting the generation and consumption trends at a day level 
(绘制 一 天 中 的 能 量 产 生 趋势 和 消耗 趋势 ) 
>ggplot (a, aes (x=date, y=value, colour=variable)) + 

geom line(size-1.5) * 

theme (axis.text-element text (size-12), 


axis.title-element text (size-15, face-"bold")) 


从 图 610 可 以 观察 到 ， 有 很 多 情况 是 能 量 产生 比 能 量 消耗 更 多 ， 反 之 亦 然 。 在 总 发 
电量 低 于 综合 消耗 量 的 情况 下 ， 使 用 电池 的 剩余 能 量 。 肯 定 也 会 有 电池 剩余 电量 不 足 的 
情况 发 生 。 在 这 种 情况 下 ， 就 不 可 避免 停电 了 。 
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variable 


= total_solarenergy 


w= total_consumption 


图 6.10 
6.32 电池 


本 小 节 继 续 探索 电池 参数 。 这 些 参数 包含 电池 电压 (Battery Voltage) 、 电 池 电 流 
(Battery Current) 和 电池 功率 (Battery Power) 。 与 前 面 的 练习 类 似 ， 从 研究 参数 的 分 
布 情况 开始 : 

#Collecting the battery related parameters 

(收集 电池 相关 的 参数 ) 


>cols<-c ("batterypower", "batteryvoltage", "batterycurrent") 
>summary (data[,cols]) 


batterypower batteryvoltage batterycurrent 
Min. : 0.00 Min. : 0.00 Min. : 0.000 
Ist Quo 0.00 1st Qu. : 97.02 1st Qu. : 0.000 
Median : 94.13 Median : 98.77 Median : 0.970 
Mean : 421.16 Mean : 98.69 Mean 2847171 
3rd Qu. : 885.87 3rd Qu. :100.53 3rd Qu. : 8.840 
Max. :2526.64 Max. :112.07 Max. :23.990 


与 太阳 能 电池 板 的 其 他 参数 以 及 与 其 他 电池 参数 相 比 ， 电 池 电 压 参数 看 起 来 相当 不 
同 。 这 个 参数 显得 相对 稀疏 。 但 这 属于 预料 之 中 ， 因 为 只 要 电池 还 有 电 ， 电 池 电 压 在 电 
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池 整 个 使 用 寿命 期 间 都 是 存在 的 。 另 一 方面 ， 电 池 功率 和 电池 电流 与 太阳 能 电池 板 参数 
的 状态 非常 相似 。 这 两 者 在 太阳 光照 射 下 (当面 板 给 电池 充电 时 ) 保持 活跃 。 下 面 来 研 
究 样 本 日 数据 的 电池 参数 趋势 ， 如 图 6.11 和 图 6.12 所 示 。 


>day<-"2016-01-31" 


»sample«-data [date (data$date time)--day,] 


»4Plot Battery Power across Time 
(绘制 电池 功率 -时 间 图 ) 
>ggplot (sample,aes (x=date time,y=batterypower)) + 
geom line() + 
theme (axis.text=element text (size=12), 


axis.title=element text (size=15, face="bold")) 


>#Plot Battery Voltage across Time 
(绘制 电池 电压 -时 间 图 ) 
>ggplot (sample,aes (x=date time,y=batteryvoltage)) + 
geom line() + 
theme (axis .text=element text (size-12), 


axis.title-element text (size-15, face-"bold")) 


»4Plot Battery Current across Time 
(绘制 电池 电流 -时 间 图 》 
>ggplot (sample,aes (x=date time,y=batterycurrent)) + 
geom line() + 
theme (axis.text-element text (size-12), 


axis.title-element text (size-15, face-"bold")) 
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Jan 31 00:00 Jan 31 06:00 Jan 31 12:00 Jan 31 18:00 Feb 01 00:0 


date time 


图 6.12 


如 果 仔细 观察 电池 电压 的 趋势 ， 就 能 清晰 地 研究 电池 放电 和 充电 周期 。x 轴 绘 制 出 特 
定 的 一 天 的 趋势 ， 时 间 从 上 午 12 点 开始 到 晚上 11 点 59 分 。 可 以 看 到 ， 从 午夜 到 日 出 ， 
电池 电压 持续 在 下 降 。 日 出 后 ， 电 池 电 压 间歇 地 增加 和 减少 ， 一 直到 晚上 5 点 。 这 表示 
同时 在 充电 和 放电 。 日 落 之 后 ， 电 池 再 次 持续 放电 。 


6.3.3 fa 


载 


现在 来 探讨 负载 参数 。 此 处 有 两 个 直流 负载 和 一 个 交流 逆 变 器 负载 。 已 经 看 到 负载 
能 量 消耗 的 分 布 ， 


>cols<-c ("load powerl","load voltagel","load currenti") 


因此 接 下 来 将 探索 其 余 的 参数 : 


»summary (data[,cols]) 


load powerl load voltagel load currenti 
Min. 3355503 Min. :127.8 Min. :0.2900 
1st Qu. :134.18 1st Qu. :186.1 1st Qu. :0.7000 
Median :165.37 Median :187.3 Median :0.8800 
Mean :174.80 Mean :186.7 Mean :0.9307 
3rd Qu. :204.62 3rd Qu. :188.1 3rd Qu. :1.0800 
Max. 1461.43 Max. :190.9 Max. :2.4800 
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同样 ， 来 观察 负载 2 参数 的 分 布 : 


>cols<-c ("load power2","load voltage2","load current2") 


»summary (data[,cols]) 


load power2 load voltage2 load current2 
Min. : 0.00 Min. :127:8 Min. :0.1300 
1st- 00. : 15:29 1st Qu. :186.1 1st Qu. :0.4100 
Median : 97.33 Median :187.3 Median :0.5100 
Mean : 94.92 Mean :186.7 Mean :0.5043 
3rd Qu. :113.06 3rd Qu. :188.1 3rd Qu. :0.6000 
Max. :242.00 Max. :190.9 Max. 2123300 


负载 1 和 负载 2 从 数据 角度 上 看 是 完全 不 同 的 。 如 果 仔细 观察 负载 功率 (load power) 


参数 ， 就 可 以 看 到 负载 1 在 整个 时 间 段 内 几乎 都 处 于 活动 状态 ， 而 负载 2 则 相对 较 少 。 
这 是 因为 各 个 负载 的 用 途 不 同 而 造成 的 。 负 载 1 用 于 内 部 照明 ， 而 负载 2 用 于 外 部 照明 。 
外 部 照明 只 有 在 夜幕 降临 时 才 会 使 用 ， 也 就 是 在 日 落后 使 用 。 而 内 部 照明 几乎 一 整 天 都 


使 有 


日 ， 比 如 手术 室 或 者 其 他 地 方 等 都 用 。 此 外 ， 负 载 1 和 负载 2 的 电压 完全 相同 。 这 是 


因为 这 两 个 负载 都 是 直流 负载 ， 并 从 同一 电池 汲取 电力 。 


下 面 一 起 绘制 一 个 样本 日 数据 直流 负载 电流 和 功率 参数 的 趋势 图 ( 见 图 6.13) 。 


>#Consider the sample dataset with 1 day's data 
(采取 一 个 含有 1 天 数据 的 样本 数据 集 ) 

>#Create a melted dataframe for Load Current 1 and 2 
(为 负载 电流 1 和 2 创建 一 个 融合 型 数据 库 ) 


>a<-melt (sample, id.vars="date time", 


measure.vars-c("load current1","load current2")) 


»4Plotting Load 1 and Load 2 parameters across time 

(绘制 负载 1 和 负载 2 参数 -时 间 图 ) 

>ggplot (a, aes (x=date time,y=value,group=variable,colour=variable)) + 
geom line() + 
theme (axis.text-element text (size-12), 


axis.title-element text (size-15,face-"bold")) 


»4Create a melted dataframe for Load Power 1 and 2 


(为 负载 功率 1 和 2 创建 一 个 融合 型 数据 框 ) 
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>a<-melt (sample,id.vars-"date time", 


measure.vars-c("load powerl","load power2")) 


»4Plotting Load 1 and Load 2 parameters across time 
(绘制 负载 1 和 负载 2 参数 -时 间 图 ) 
>ggplot (a,aes (x-date time, y-value,group-variable,colour-variable)) + 
geom line() * 
theme (axis.text-element text (size-12), 


axis.title-element text (size-15, face-"bold")) 


pA me 


图 6.13 


一 个 负载 的 功率 和 电流 趋势 非常 相似 。 尽 管 处 在 完全 不 同 的 尺度 上 ， 但 对 于 相同 
的 负载 ， 该 趋势 看 起 来 非常 相似 。 这 是 因为 电压 恒定 时 功率 与 电流 呈 线 性 关系 。 


6.34 STA 


最 后 但 也 很 重要 的 一 点 是 ， 需 要 研究 逆 变 器 的 参数 。 逆 变 器 捕获 有 与 能 量 和 功率 有 
关 的 参数 。 捕 获 到 这 两 个 参数 的 输入 和 输出 指标 。 这 是 因为 输入 和 输出 所 提供 的 参数 值 
会 有 所 不 同 。 首 先 ， 逆 变 器 的 运行 需要 一 定 的 能 量 ， 其 次 在 直流 到 交流 转换 过 程 中 会 出 
现 一 些 损耗 。 已 经 研究 了 能 量 消耗 参数 ， 因 此 接 下 来 研究 的 是 输入 功率 参数 。 


>cols<-c ("inverter input power") 


»summary (data[,cols]) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
0.0000 0.1900 0.1900 0.2936 0.3300 2.3200 
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在 逆 变 器 功率 数据 中 可 以 看 到 少量 的 稀疏 性 ， 这 通常 发 生 在 电源 完全 切断 或 绝对 没 
有 消耗 的 情况 下 。 交 流 负 载 供 诊所 的 仪器 和 其 他 设备 使 用 。 其 使 用 模式 可 能 是 间歇 性 的 。 
来 看 一 个 样本 日 的 逆 变 器 功率 数据 的 分 布 情况 ， 如 图 6.14 所 示 。 


»cols«-c("inverter input power") 


»summary (data[,cols]) 

»ggplot(sample,aes(x-date time,y-inverter input power)) + 
geom line(size-1) + 
theme (axis.text-element text(size-12), 


axis.title-element text (size-15, face-"bold")) 
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图 6.14 


上 述 样本 日 数据 的 逆 变 器 输入 功率 曲线 ， 有 助 于 了 解 交流 负载 消耗 的 间歇 性 。 它 按 
患者 治疗 要 求 的 变化 而 变化 。 


6.3.5 ”从 数据 探索 练习 中 学 习 


截至 目前 ， 探 索 了 数据 全 貌 中 的 不 同 参数 。 在 探索 性 数据 分 析 阶 段 ， 也 深入 探讨 了 
太阳 能 电池 板 、 电 池 以 及 直流 和 交流 负载 的 不 同 参数 。 那 么 迄今 为 止 得 到 了 哪些 收获 ? 


6.3.6 简单 概括 所 有 的 发 现 和 学 习 收 获 


目前 研究 了 太阳 能 电池 板 参数 的 分 布 ， 如 功率 、 电 压 、 电 流 和 产生 的 能 量 ， 并 且 发 
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现 该 模式 与 太阳 一 致 相关 ， 正 如 从 数据 的 稀疏 性 中 预期 的 那样 。 为 了 理解 更 加 深入 透彻 ， 
还 研究 了 样本 日 数据 的 参数 的 时 间 序 列 趋 势 。 所 有 这 些 模式 的 行为 都 与 日 出 和 日 落 模式 
同步 。 大 部 分 参数 在 阳光 照射 的 情况 下 是 活跃 的 ， 即 在 大 约 上 午 6 点 到 下 午 6 点 期 间 。 
并 且 考察 了 不 同时 间 和 不 同日 期 的 样本 日 的 累积 发 电量 趋势 ， 发 现在 白天 (上午 6 点 到 
下 午 6 点 ) ， 发 电量 几乎 呈 线 性 增长 另外， 日 常 的 发 电量 趋势 缺乏 稳定 性 。 每 天 产生 
大 约 8 至 11 个 单位 的 能 量 。 

接着 ， 探 讨 了 两 个 直流 负载 和 一 个 交流 负载 的 能 源 消 耗 模式 ， 以 及 三 者 的 组 合 。 并 
且 从 中 发 现 了 最 大 消耗 量 主要 来 自负 载 2， 而 负载 1 则 最 小 。 交 流 负载 大 致 位 于 中 间 。 对 
每 日 总 发 电量 和 总 消耗 量 的 研究 表明 ， 有 许多 情况 下 一 天 中 的 能 量 产生 低 于 能 量 消耗 ， 
反之 亦 然 。 

在 研究 电池 参数 时 ， 观 察 到 除了 电池 电压 外 ， 其 他 参数 的 行为 与 太阳 能 电池 板 行为 
相符 。 电池 的 电压 在 放电 时 会 减少 ， 而 在 充电 时 电池 的 电压 将 会 增加 ， 在 太阳 正常 照射 
的 一 天 中 可 以 看 到 这 种 现象 会 保持 一 致 。 此 外 ， 直 流 负载 的 功率 、 电 流 和 电压 参数 是 间 
歇 性 的 ， 完 全 取决 于 消耗 能 量 的 设备 类 型 。 由 于 功率 与 电流 呈 线 性 关系 ， 所 以 从 两 个 参 
数 中 都 看 到 了 相似 的 趋势 。 

最 后 ， 在 探究 逆 变 器 参数 的 过 程 中 ， 发 现 由 于 白天 使 用 交流 负载 时 有 时 无 ， 逆 变 器 
功率 趋势 再 次 变 得 非常 不 稳定 。 


6.3.7 ”解决 问题 


现在 已 较 全 面 地 掌握 了 数据 总 况 。 接 下 来 暂停 一 下 ， 人 慎重 思考 正在 解决 什么 问题 ， 
以 及 将 如 何 解决 这 个 问题 。 

太阳 能 电池 板 安装 所 面临 的 主要 问题 或 难点 是 ， 第 二 天 发 电量 供应 的 不 确定 性 。 所 
以 基本 上 需要 预测 第 二 天 能 否 有 足够 的 发 电量 。 而 发 现 哪 一 天 停电 是 无 法 直接 从 数据 中 
计算 出 来 的 。 这 是 因为 除了 能 量 消耗 和 能 量 产 生存 在 差异 之 外 ， 还 因为 上 一 次 能 量 产生 
所 存储 在 电池 中 的 有 限 能 量 。 

此 处 有 一 个 单独 的 数据 集 ， 记 录 了 同一 时 间 段 和 地 点 的 停电 情况 。 数 据 是 一 个 停电 
提示 (flag) ， 例 如 每 天 为 1 或 0 C» 表示 停电 ) 。 因 此 ， 需 要 构建 一 个 模型 ， 从 中 获得 
每 天 所 有 的 指标 或 特征 。 利 用 此 层级 的 数据 ， 可 以 根据 当天 的 不 同 特征 、 指 标 和 其 他 数 
据点 设计 数据 ， 以 预测 次 日 的 情况 。 

现在 的 问题 是 ， 可 以 定义 /设计 哪 种 特征 来 代表 在 所 举例 地 点 的 一 天 情况 ? 

下 面 是 正式 开始 研究 特征 工程 。 看 看 可 以 从 数据 中 直接 提取 出 哪些 信息 /特征 。 
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6.3.8 特征 工程 


首先 ， 可 以 创建 的 最 简单 和 最 重要 的 特征 如 下 : 
口 一 天 太阳 能 总 发 电量 。 
D 一 天 总 消耗 量 。 
同样 ， 许 多 参数 的 行为 与 太阳 的 活动 ， 即 太阳 能 电池 板 的 活动 有 着 密切 的 关系 。 由 
于 太阳 能 电池 板 完全 取决 于 太阳 ， 所 以 太阳 能 电池 板 的 行为 会 有 变化 。 对 特征 进行 加 工 ， 
以 最 合适 的 方式 来 压缩 这 些 信息 是 非常 重要 的 。 

接 下 来 从 有 可 能 对 增值 有 用 的 简单 特征 开始 。 一 天 中 大 部 分 参数 的 最 大 值 会 有 相对 
较 好 的 变化 。 但 是 ， 对 于 大 多 数 参 数 来 说 ， 最 小 值 将 为 0， 所 以 现在 就 来 观察 一 下 。 
同样 的 ， 这 些 参数 的 活跃 持续 时 间 是 有 价值 的 ， 比 如 在 没有 太阳 的 情况 下 电池 板 电 
流 将 为 0, 但 是 当 太 阳光 强度 足以 产生 能 量 时 电流 的 值 将 会 超过 闵 值 。 可 能 会 出 现 这 样 的 
情况 ， 由 于 天 气 多 云 ， 太 阳 能 电池 板 获得 的 阳光 充足 的 时 间 相对 较 少 ， 影 响 了 能 量 的 产 
生 ， 因 此 可 能 是 造成 第 二 天 停电 的 潜在 原因 。 

另外 ， 在 一 天 的 开始 和 结束 时 ， 电 池 中 的 电量 对 于 判断 第 二 天 电量 短缺 的 概率 非常 
有 帮助 。 而 每 分 钟 的 电池 电压 值 ， 可 供 了 解 特定 时 刻 电池 剩余 电量 的 百分比 。 


9 :s. 

电池 的 最 高 电压 为 112V， 最 低 为 88V。 由 于 性 能 原因 ， 电 池 绝 不 允许 降 到 其 容量 的 
30% 以 下 。 这 里 ，112V 表示 100% 的 电量 ，88V 表示 30% 的 电量 。 因 此 ， 可 以 单独 计算 
电压 在 任何 给 定时 刻 电池 剩余 电量 百分比 。 


截至 目前 , 还 没有 触及 辐 照 度 和 温度 读数 。 理想 情况 下 , 太阳 能 电池 板 设 计 为 在 25C 
下 接收 1000W/m? 的 辐 照 度 时 效果 最 佳 。 温度 升 高 或 降低 会 使 太阳 能 发 电量 略 有 下 降 , 类 
似 地 ， 低 于 1000 Wm 的 辐 照 度 值 也 会 降低 发 电量 。 可 以 将 这 些 信息 编码 为 一 天 的 特征 。 
比方 说 ， 有 一 个 至 少 1000 W/m? 的 辐 照度 ,而 如 果 有 偏差 ,那么 偏差 为 多 少 ? 白天 的 电池 
板 温度 与 25C 的 平均 绝对 偏差 也 是 有 价值 的 。 
O 注意; 

若 要 获得 关于 温度 和 辐 照 度 对 太阳 能 发 电量 的 影响 以 及 其 他 参数 的 洞 见 ， 最 理想 的 
做 法 是 进行 调研 或 与 行业 专家 交谈 了 解 领域 背景 信息 。 

接 下 来 快速 构建 这 些 数据 特征 。 

首先 尝试 找 出 高 于 指定 阔 值 的 持续 时 间 参 数 。 目 前 已 经 为 不 同 的 参数 设 定 了 阔 值 。 
即 电池 板 电流 为 SA， 电 池 板 电压 为 120V， 电 池 板 功率 为 1000W， 电 池 电 流 为 10A， 以 
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及 电池 功率 为 800W 这 里 选择 了 上 述 值 是 基于 在 深入 了 解数 据 并 向 行业 专家 咨询 后 做 出 
的 决定 。 
>a<- data %>% 
mutate ( 
S current ts = ifelse(solarcurrent > 5,as.numeric(date time),NA), 
S voltage ts = ifelse(solarvoltage > 120,as.numeric(date time),NA), 
S power ts = ifelse(solarpower > 1000,as.numeric(date time),NA), 
b current ts — ifelse(batterycurrent > 
10,as.numeric(date time),NA), 
b power ts = ifelse(batterypower > 800,as.numeric(date time),NA) 


) 
现在 可 以 像 前 面 讨论 的 那样 ， 按 天 创建 一 些 特征 ; 


>a<-a %>% group by(location,date) %>% 
summarise ( 
#Calculating the maximum values at a day level 
(计算 一 天 中 的 最 大 值 ) 
max solarpower=max (solarpower), 
max solarcurrent-max(solarcurrent), 


max solarvoltage-max (solarvoltage), 


#Calculating the mean/avg values at a day level 
(计算 一 天 中 的 均值 /平均 数 ) 

mean solarpower=mean (solarpower), 

mean solarcurrent=mean (solarcurrent), 


mean solarvoltage-mean (solarvoltage), 


$Calculating the min and max of date time 
(计算 date time 的 最 小 值 和 最 大 值 ) 

#for conditional parameters 

(用 于 条 件 参数 ) 
S current min-min(s current ts,na.rm-T), 
S current max-max(s current ts,na.rm-T), 
S voltage min-min(s voltage ts,na.rm-T), 
S voltage max-max(s voltage ts,na.rm-T), 


S power min-min(s power ts,na.rm-T), 
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S power max-max(s power ts,na.rm-T), 
b power min-min(b power ts,na.rm-T), 
b power max-max(b power ts,na.rm-T), 
b current min-min(b current ts,na.rm-T), 


b current max-max(b current ts,na.rm-T), 


fCalculating total energy at a day level 
(计算 一 天 中 的 总 能 量 ) 

S energy-sum(solarenergy), 

11 energy-sum(load energy1), 

12 energy-sum(load energy2), 


inv energy-sum(inverter input energy), 


fCalculating first and last battery Voltages 
(计算 第 一 个 和 最 后 一 个 的 电池 电压 ) 

fbat=first (batteryvoltage), 

lbat-last (batteryvoltage) 

) 


>#Converting the data time to the proper required format 

(将 数据 时 间 转 换 为 合适 的 所 需 格式 ) 

»a <= a 和 > 多 

mutate( 

S current min- 

as.POSIXct(s current min,origin-"1970-01-01",tz-"UTC"), 
S current max- 

as.POSIXct(s current max,origin-"1970-01-01",tz-"UTC"), 
S voltage min- 

as.POSIXct(s voltage min,origin-"1970-01-01",tz-"UTC"), 
S voltage max- 

as.POSIXct(s voltage max,origin-"1970-01-01",tz-"UTC"), 
S power min- as.POSIXct(s power min,origin-"1970-01-01",tz-"UTC"), 


S power max- as.POSIXct(s power max,origin-"1970-01-01",tz-"UTC"), 


b power min- as.POSIXct(b power min,origin-"1970-01-01",tz-"UTC"), 
b power max- as.POSIXct(b power max,origin-"1970-01-01",tz-"UTC"), 


b current min- 
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as.POSIXct(b current min,origin-"1970-01-01",tz-"UTC"), 
b current max- 
as.POSIXct(b current max,origin-"1970-01-01",tz-"UTC"), 
weekdays-weekdays (date) 
) 


»4Adding final changes to the dataset 
(将 最 终 更 改 添加 到 数据 集 ) 
>a<-a %>% 
mutate ( 
#Calculating the time duration in mins for the parameters with active 
( 按 分 钟 计算 有 效 参数 的 持续 时 间 ) 
#Value above threshold 
(超过 闵 值 的 值 ) 
S current duration-as.numeric(difftime(s current max,s current min), 
units-"mins"), 
S voltage duration-as.numeric(difftime(s voltage max,s voltage min), 
units-"mins"), 
S power duration-as.numeric(difftime(s power max,s power min),units- 
"mins"), 
b power duration-as.numeric(difftime(b power max,b power min),units- 
"mins"), 


b current duration-as.numeric(difftime(b current max,b current min), 


units-"mins"), 


#Calculating $ battery remaining from the voltage 
(计算 电压 余 留 的 电池 电量 的 百分比 〉) 

fbat perc-(100- (112-fbat)*2.916), 

Ibat perc-(100-(112-1lbat)*2.916), 


Calculating 
(计算 ) 
total consumed energy-inv energy+ll1 energy+12 energy 


) 
此 刻 已 经 创建 了 大 部 分 的 特征 ， 下 面 来 看 看 它们 的 分 布 。 
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研究 了 能 量 消耗 和 日 常 发 电量 的 趋势 之 后 ， 接 着 观察 一 天 中 太阳 能 电池 板 和 电池 参 
数 的 最 大 值 和 平均 值 : 


>cols<-c ("max solarpower","max solarcurrent","max solarvoltage", 


"mean solarpower","mean solarcurrent","mean solarvoltage") 


»summary (a[,cols]) 


max solarpower max solarcurrent max solarvoltage mean solarpower mean solarcurrent mean solarvoltage 


Min. :1379 Min.  : 7.60 Min. :186.0 Min.  :304.0 Min. :1. Min. :61.03 
lst Qu.:2068 lst Qu.:12.29 1st Qu.:189.0 lst Qu.:466.3 lst Qu.:2. lst Qu.:75.04 
Median :2226 Median :13.53 Median :192.6 Median :513.0 Median :2. Median :84.72 
Mean  :2193 Mean  :13.44 Mean  :192.3 Mean  :507.6 Mean :3. Mean  :81.49 
3rd Qu.:2331 3rd Qu.:14.77 3rd Qu.:194.9 3rd Qu.:552.9 3rd Qu.:3. 3rd Qu.:85.83 
Max. :2981 Max. :18.35 Max. :198.8 Max. :659.9 Max. :5. Max. :98.97 


除了 电池 板 电压 最 大 值 ， 可 以 看 到 分 布 相对 较 好 。 这 意味 着 ， 从 一 天 中 某 个 参数 的 
最 大 值 或 均值 考虑 ， 可 以 预计 这 些 值 会 有 一 些 变化 ， 最 终 有 助 于 整理 出 一 些 信息 来 预测 
第 二 天 是 否 会 停电 。 

紧 接着 ， 将 研究 超过 预 设 阔 值 以 上 的 不 同 参数 的 持续 时 间 数 据 分 布 ; 


>cols<-c("s current duration","s voltage duration","s power duration", 
"b power duration","b current duration") 


»summary (a[,cols]) 


s current duration — s voltage duration s. power. duration b power duration b. current duration 
Min.  :243.7 Min. 1646.3 Min. :207.7 Min. :201.7 Min. : 40.02 
1st Qu.:461.2 1st Qu.:697.5 1st Qu.:438.7 1st Qu.:437.6 1st Qu.:367.50 
Median :481.8 Median :702.5 Median :455.1 Median :448.6 Median :406.20 


Mean  :482.4 Mean  :705.1 Mean  :451.1 Mean  :447.4 Mean 
3rd Qu.:516.0 3rd Qu.:715.1 3rd Qu.:468.7 3rd Qu.:465.7 3rd Qu . 
Max. 1544.8 Max. :743.7 Max. 1540.0 Max. :508.1 Max. :463.20 


另外 ， 来 查看 一 天 开始 和 结束 时 电池 剩余 电量 百分比 ， 观 察 其 数据 分 布 是 如 何 的 : 


»cols«-c("fbat perc","lbat perc") 


»summary (a[,cols]) 


fbat perc lbat perc 
Min. :39.11 Min. :38.56 
1st Qu. :54.81 1st Qu.:54.77 
Median :58.75 Median :59.04 
Mean :57.95 Mean :57.69 
3rd Qu. :62.70 3rd Qu.:62.47 
Max. :71.83 Max. :68.89 
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与 以 前 的 特征 类 似 ， 可 以 发 现在 一 天 的 开始 和 结束 时 ， 电 池 剩 余 电量 百分比 数据 相 
对 较 好 。 
现在 来 观察 该 诊所 业主 使 用 太阳 能 基础 设施 时 的 停电 记录 数据 : 


>url<- 


"https://github.com/jojo62000/Smarter Decisions/raw/master/Chapter$206 
/Data/outcome.csv" 


»outcome«-read.csv (url) 


>dim (outcome) 
[1] 104 2 


>head (outcome) 

date flag 
2015-12-02 
2015-12-03 
2015-12-04 
2015-12-05 
2015-12-06 
2015-12-07 


on 中 wm NR Pp 
oo000 | m 


»summary (as.Date (outcome$date)) 


Min. 1st Qu. Median Mean 3rd Qu. Max. 
"2015-12-02" "2015-12-27" "2016-01-22" "2016-01-22" "2016-02-17" "2016-03-14" 


>#Check the distribution of 0's and 1's in the data 
(检查 数据 中 0 和 1 的 分 布 ) 
>table (outcome$flag) 


0 1 
68 36 


从 以 上 结果 可 以 看 到 ， 该 结果 数据 记录 了 一 天 停电 的 结果 。1 表示 停电 ，0 表示 没有 
停电 ， 而 我 们 获得 了 与 太阳 能 电池 板 传感器 数据 相同 时 间 段 的 数据 。 从 整个 104 天 的 数 
据 来 看 ， 停 电 36 天 ， 也 就 是 说 ， 当 能 量 消 耗 超过 能 量 产生 和 电池 剩余 电量 时 ， 有 约 35% 
的 情况 出 现 计 划 外 停电 。 
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下 面 把 完整 的 数据 整合 起 来 放 进 一 个 数据 框 : 
»columns«- 
c( 
"location","date", 
"s current duration","s voltage duration","s power duration", 
"b power duration","b current duration", 
"max solarpower","max solarcurrent","max solarvoltage", 
"mean solarpower","mean solarcurrent","mean solarvoltage", 
"fbat perc","]bat perc", 
"s energy","ll energy","12 energy","inv energy","total consumed energy", 


"weekdays" 


) 


»4Convert the Date variable in Outcome data to a 'Date' format 
(将 结果 数据 中 的 "Date" 变 量 转换 为 "Date" 格 式 ) 


»outcome$date«- as.Date (outcome$date) 


»day level«-a[,columns] 


»day level«-merge (day level,outcome,on-"date",how-"inner") 


»dim(day level) 
[1] 104 22 


此 刻 收集 了 所 创建 一 天 中 的 所 有 重要 变量 /特征 ， 并 组 合 了 当天 的 结果 ， 也 就 是 得 出 


一 个 表示 当天 是 否 有 停电 的 提示 Clag) 。 


由 于 须 建 模 以 预测 第 二 天 是 否 会 停电 ， 这 里 创建 一 个 新 变量 ， 用 以 指明 第 二 天 是 否 


停电 。 这 可 以 通过 一 个 lead (HO 操作 就 能 轻而易举 地 实现 ， 也 就 是 将 所 有 的 行 向 上 
移动 一 行 。 由 于 最 后 一 行 有 一 个 缺失 值 ， 从 数据 中 删除 最 后 一 行 。 


O 注意 : 


结果 数据 集中 的 数据 仅 指明 数据 集 当前 是 否 存在 停电 状况 。 但 是 ， 需 要 预测 第 二 天 


的 停电 情况 。 因 此 ， 采 取 一 个 lead ( 函数 ) 操作 ， 使 横断 面 数 据 处 于 同一 水 平 并 获取 第 
二 天 的 结果 。 


>day level$outcome«-lead(day level$flag) 
>day level«-day level[1: (nrow(day level)-1),] 
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接 下 来 ， 可 能 会 开始 构建 预测 模型 ， 并 采用 类 似 于 以 前 分 析 所 用 的 技术 来 验证 它们 。 


Q 注意 

解决 这 个 问题 的 方法 比比 恬 是 。 由 于 数据 采用 时 间 序 列 格式 ， 因 此 大 多 数 数据 科学 
家 和 统计 人 员 会 利用 ARIMA 或 ARIMAX 模型 来 解决 相同 的 问题 。 为 了 方便 ， 本 书 选 择 
了 以 下 方法 。 但 是 这 两 种 方法 都 可 以 利用 。 


6.4 构建 用 例 的 预测 模型 


和 弄 到 目前 ， 已 经 解析 了 问题 并 设计 了 方法 ， 而 且 探索 了 数据 并 研究 通过 传感器 捕获 
到 的 各 种 参数 的 模式 。 然 后 ， 又 对 这 些 数 据 进行 加 工 ， 并 创建 了 几 个 特征 ， 以 丰富 的 维 
度 来 描述 日 常 活动 。 现 在 拥有 多 个 预测 因子 和 因 变 量 结果 的 数据 (对 该 提示 即 flag 采用 
一 个 lead 函数 ) 操作 来 创建 ， 也 就 是 说 指明 第 二 天 是 否 停电 ) 。 此 时 面临 的 挑战 是 一 
个 二 元 结果 〈 即 1 和 0) 的 普通 分 类 问题 。 


O +x: 

作为 建 模 练习 的 一 部 分 ， 需 要 深入 探索 分 类 模型 的 变量 ， 研 究 相关 性 、 多 重 共 线性 
和 其 他 检验 等 。 如 果 要 讨论 用 于 预测 模型 建设 练习 而 获取 数据 的 全 过 程 ， 则 已 超出 了 本 
章 的 范围 。 但 是 在 此 强烈 建议 读者 在 建 模 之 前 执行 所 有 必需 的 检查 。 


由 于 这 是 一 个 二 元 分 类 问题 ， 所 以 可 以 选择 前 面 章节 中 学 到 的 算法 ， 如 决策 树 、 随 
机 森林 、Logistic 回归 ， 甚至 XGBoost。 在 当前 用 例 中 , 虽然 最 初 有 一 个 巨大 的 数据 转 储 ， 
但 经 过 加 工 和 数据 转换 之 后 ， 最 后 只 剩 下 大 约 100 天 的 数据 ， 总 共 可 转化 为 100 个 训练 
样本 。 这 个 数字 较 小 ， 如 果 至 少 有 500 个 训练 样本 ， 那 将 更 加 好 。 有 一 个 经 验 法 则 是 ， 
应 该 至 少 有 30 个 训练 样本 用 于 每 个 预测 因子 ， 换 言 之 ， 如 果 有 6 个 预测 变量 ， 那 么 应 该 
超过 180 个 训练 样本 。 

为 了 建立 模型 ， 接 下 来 将 从 随机 森林 模型 开始 ， 而 且 如 果 需 要 ， 还 可 以 多 尝试 一 个 
算法 。 

在 加 工 后 的 所 有 预测 因子 中 ， 并 不 是 所 有 的 预测 因子 都 可 以 增加 真正 的 价值 。 此 处 
选择 的 这 些 变 量 都 是 随机 的 。 后续 将 尝试 通过 向 后 选择 法 (backward selection) 来 提高 模 
型 准确 度 。 

第 1 步 : 从 所 有 的 变量 开始 。 
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»set.seed(600) 

»train sample«-sample (1:nrow(day level),floor(0.7*nrow(day level))) 
»train«-day level[train sample, ] 

»test«-day level[-train sample,] 

»library (randomForest) 

»fit«-randomForest( as.factor(outcome)- 

S current duration + total consumed energy + s voltage duration + 
S power duration + b power duration + b current duration + 

fbat perc * Ibat perc * s energy * l1 energy * 12 energyt 

inv energy + max solarpower + max solarcurrent 十 

max solarvoltage + mean solarpower + mean solarcurrent-* 

mean solarvoltage, 


data-train,mtry-4,ntree-500,replace-TRUE) 


Call: 
randomForest(formula = as.factor (outcome) ~ s current duration + 
total consumed energy * s voltage duration * s power duration * 
b power duration * b current duration * fbat perc * lbat perc * 
s energy + ll energy + 12 energy + inv energy + max solarpower + 
max solarcurrent + max solarvoltage + mean solarpower + mean solarcurrent + 


mean solarvoltage, data = train, mtry = 4, ntree = 500, replace = TRUE) 


Type of random forest  : classification 
Number of trees : 500 
No. of variables tried at each split : 4 


OOB estimate of error rate : 26.39% 
Confusion matrix: 
OT class.error 
0 45 5 0.1000000 
1 14 8 0.6363636 


>#Creating a function to summarise the prediction 
(创建 一 个 函数 来 汇总 预测 ) 
>prediction summary<-function (fit,test) 
{ 
#Predicting results on the test data, using the fitted model 
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(使 用 拟 合 后 的 模型 预测 测试 数据 的 结果 ) 

predicted<-predict (fit,newdata=test, type="response") 
actuals<-test$outcome 

confusion matrix«-table (actuals,predicted) 
print("Confusion Matrix :-") 

print (confusion matrix) 

print("") 

diCalcualting the different measures for Goodness of fit 
(计算 不 同 度量 用 于 拟 合 优 度 ) 


TP<-confusion matrix[2,2] 


FP<-confusion matrix[1,2] 
TN<-confusion matrix[1,1] 
FN<-confusion matrix[2,1] 
#Calcualting all the required 
(计算 所 有 需要 的 ) 
print(paste("Overall accuracy -> ", (TP+TN) /sum(confusion matrix))) 
print(paste("TPR -> ",TP/ (TP+FN))) 
print(paste("TNR -> ",TN/(TN«FP))) 
print(paste("FP -> ",FP/(TN4FP))) 
) 


»prediction summary (fit,test) 


[1] "Confusion Matrix :-" 
predicted 

actuals 0 1 

ON TI5c3 

TESTOES3 
[pug] m 
[1] "Overall accuracy -> 0.580645161290323" 
[1] "TPR -» 0.230769230769231" 
[1] "TNR -» 0.833333333333333" 
[1] "FP -> 0.166666666666667" 


使 用 所 有 的 变量 进行 第 一 次 迭代 ， 可 以 清楚 地 看 到 ， 所 获得 的 结果 非常 糟糕 。 在 这 
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个 练习 中 ， 和 希望 预测 关于 停电 为 正确 事件 的 最 大 量 ， 因 此 需要 着 重 于 TPR 和 相对 较 好 
的 TNR. 
由 于 TPR 极 低 ， 检 查 训练 数据 的 分 布 情况 : 


>table (train$outcome) 


0 1 
50 22 


训练 样本 向 0 倾斜 ， 因 此 用 于 1 的 训练 样本 更 少 了 。 这 有 点 类 似 于 之 前 的 用 例 ， 只 
是 在 那个 用 例 中 有 一 个 倾向 于 1 的 倾斜 样本 。 为 了 提高 学 习 效率 ， 可 以 尝试 各 种 技术 ， 
如 过 抽样 、 分 层 抽 样 、Boosting 等 。 现 在 取 一 个 具有 相似 分 布 的 因 变 量 样 本 ， 以 便 模型 
以 相等 的 权重 学 习 预 测 1 和 0。 通 过 这 一 步 ， 因 为 有 很 少 的 训练 样本 ， 基 本 上 就 给 用 于 1 
的 训练 样本 增加 了 一 些 额外 的 权重 : 

»4Doubling the number of 1's 

(将 用 于 1 的 训练 样本 翻 倍 ) 


»new train«-rbind(train,train[train$outcome--1,]) 


>table (new train$outcome) 


oTi 
50 44 


#we have added more number of 1's to get the training sample almost balanced 


(增加 了 更 多 用 于 1 的 训练 样本 数 以 使 训练 样本 几乎 达到 平衡 
接 下 来 使 用 新 的 过 抽样 训练 集 的 所 有 变量 ， 尝 试 运行 相同 的 模型 : 


>#Codes have been ignored for the model call 
(已 忽略 用 于 模型 调用 的 代码 ) 
Call: 
randomForest(formula = as.factor(outcome) ~ s current duration + 
total consumed energy + s voltage duration + s power duration + 
b power duration * b current duration * fbat perc * lbat perc * 
sS energy + ll energy + 12 energy + inv energy + max solarpower + 
max solarcurrent + max solarvoltage + mean solarpower + mean solarcurrent + 


mean solarvoltage, data = new train, mtry = 4, ntree = 500, replace = 


* 246 


变量 是 最 不 重要 的 变量 。 为 了 改进 


TRUE) 
Type of random forest 


No. of variables tried at each split 


OOB estimate of error rate : 


Confusion matrix: 

0 1 class.error 
0 41 9 0.18 
1 0 44 0.00 


> prediction summary (fit,test) 
[1] "Confusion Matrix :-" 


predicted 
actuals 0 1 
0 14 4 
n DEEB 
(mij 


当 大 数据 遇见 物 联 网 一 一 智能 决策 解决 之 道 


: classification 
Number of trees : 


500 


: 4 


9.57% 


[1] "Overall_accuracy -> 0.709677419354839" 


[1] "TPR -> 0.615384615384615" 
[1] "TNR -> 0.77TTTTTTTTTTTT8" 
[1] "FP -> 0.222222222222222" 


研究 上 述 测试 数据 的 结果 ， 发 现 了 相对 较 好 的 结果 。 通 过 小 小 牺牲 一 点 TNR 来 提高 


>varImpPlot (fit) 


TPR 和 总 体 精度 。 然 后 试 着 去 掉 那 些 没 有 增加 价值 的 预测 因子 。 这 可 用 randomForest 包 
中 的 varImpPlot 工具 进行 研究 ， 如 图 6.15 所 示 。 


在 图 6.15 所 示 的 变量 重要 性 图 中 ， 通 过 对 MeanDecreaseGini 的 研究 ， 观 察 发 现 由 随 


这 一 步 将 进行 完全 迭代 和 一 次 试 错 实验 。 


机 森林 模型 界定 的 最 不 重要 的 变量 。 最 顶端 的 变量 是 模型 中 最 重要 的 变量 ， 而 最 底部 的 


模型 ， 将 消除 一 些 不 太 重 要 的 变量 ， 并 尝试 调整 模型 。 
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total consumed energy 
lbat perc 

I2 energy 

s power duration 
s current duration 
max solarvoltage 
fbat perc 

inv energy 

max solarcurrent 
mean solarvoltage 
max solarpower 
b power duration 
If energy 

b current duration 
S voltage duration 
mean solarcurrent 
mean solarpower 
s energy 


MeanDecreaseGini 


图 6.15 
以 下 结果 是 从 该 迭代 结果 得 来 的 : 


Call: 
randomForest(formula = as.factor(outcome) ~ s current duration + 
total consumed energy * s power duration * b power duration * 
b current duration + fbat perc + lbat perc + ll energy + 12 energy + 
inv energy + max solarpower + max solarcurrent + max solarvoltage + 
mean solarvoltage, data - new train, mtry - 3, ntree - 100, replace - 
TRUE, nodesize = 5, maxnodes = 5) 

Type of random forest  : classification 

Number of trees : 100 

No. of variables tried at each split 123 


OOB estimate of error rate : 20.21$ 
Confusion matrix: 
0 1 class.error 
0 36 14 0.2800000 
al 52539 0.1136364 
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> prediction summary (fit,test) 
[1] "Confusion Matrix :-" 
predicted 

actuals 0 1 

0 T35 

1— 310 
[1] "" 
[1] "Overall accuracy -> 0.741935483870968" 
[1] "TPR -> 0.769230769230769" 
[1] "TNR -» 0.722222222222222" 
[1] "FP -» 0.27TTTTTTTTTTTTT8" 


可 以 看 到 结果 略 有 改进 。TPR、TNR 和 总 体 精 度 略 微 提 高 。 但 是 ， 由 于 测试 样本 中 
使 用 的 样本 数 相对 较 少 ， 不 能 十 分 肯定 地 总 结 结果 。 结 果 的 范围 可 以 随 着 另 一 个 测试 样 
本 而 变化 。 这 种 事件 发 生 的 可 能 性 是 相当 高 的 ， 因 为 在 较 低 的 训练 样本 中 ， 即 使 是 一 个 
或 两 个 样本 误 分 类 也 会 导致 总 体 结果 变化 10% 一 20%。 为 了 获得 更 好 的 想法 ， 随 后 将 使 
用 整个 数据 集 来 测试 模型 并 研究 结果 。 


>prediction summary(fit,day level) 


[1] "Confusion Matrix :-" 
predicted 


actuals 0 1 
0 54 14 
1131132 


PED 

[1] "Overall accuracy -> 0.83495145631068" 
[1] "TPR -> 0.914285714285714" 

[1] "TNR -> 0.794117647058823" 

[1] "FP -» 0.205882352941176" 


从 上 可 观察 到 ， 总 体 上 取得 了 很 好 的 结果 。TPR 和 TNR 也 相对 良好 ， 并 且 微 调 后 的 
模型 总 体 精 度 也 很 高 。 如 果 考 虑 一 个 平均 的 模型 ， 也 就 是 说 ， 既 没有 与 整个 数据 集 的 结 
果 一 样 好 ， 但 也 不 像 测试 集 的 一 样 低 ， 即 获得 的 TPR 约 为 70%，TNR 约 为 75%， 因 此 总 
体 精度 约 为 75%。 
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Q ss. 
目前 的 模型 构建 还 有 很 大 的 改进 余地 。 然 而 ， 当 前 的 这 个 练习 是 受 限 于 解决 方案 之 
前 的 结果 。 鼓 励 读者 进一步 过 代 和 调整 模型 。 


接 下 来 将 汇总 结果 ， 看 看 如 何 为 本 章 用 例 起 草 一 个 故事 〈 即 解决 方案 ) 。 
65 汇总 解决 方案 


此 时 准备 好 了 一 个 能 够 给 出 准确 度 相 对 较 好 的 模型 。 从 大 概 数字 来 说 ， 实 现 了 75% 
的 总 体 精度 ，70% 的 TPR 和 75% 的 TNR. (还 可 以 进一步 提高 这 个 数字 ) 。 

这 些 是 如 何 让 用 例 的 收益 增加 的 ? 通过 我 方 团队 准备 好 的 模型 ， 可 以 肯定 地 说 ， 预 
测 10 次 有 7 次 是 正确 的 。 所 以 ， 把 因 停电 而 造成 的 损失 节省 了 70%。 可 是 现在 也 错误 地 
预测 了 停电 的 时 间 ， 即 10 次 中 有 大 约 2.5 次 预测 错误 。 假 设 预计 第 二 天 将 停电 ， 储 备 柴 
油 就 会 产生 成 本 ， 而 这 个 成 本 损失 将 会 从 正确 的 预测 中 抵消 《惩罚 ) 。 

总 体 FPR 较 低 ， 而 且 停电 时 备用 柴油 的 成 本 通常 远 低 于 计划 外 停电 造成 的 损失 。 因 此 ， 
我 们 仍然 处 于 为 解决 方案 增值 的 有 利 位 置 。 假 设 第 二 天 的 柴油 成 本 为 100 美元 ， 计 划 外 
停电 造成 的 损失 为 300 美元 。 那 么 ， 每 100 个 事件 ， 就 有 大 约 35 个 事件 会 发 生意 外 的 停电 。 
因此 ， 总 损失 = 35x300 = 10500 美元 。 
运用 预测 模型 ， 正 确 预 测 了 10 例 中 的 7 例 ， 即 35 例 中 的 24.5 例 。 
因此 ， 损 失 减 少 = 24.5x300 = 7350 美元 。 

每 一 次 不 正确 的 预测 ， 都 会 因为 备用 不 必要 的 柴油 而 损失 100 美元 ， 换 而 言 之 ，10 
次 中 的 2.5 次 是 100 次 中 的 25 次 = 25x100 = 2500 美元 。 

因此 ， 净 损失 减少 = 7350 — 2500 = 4850 美元 。 

现在 ， 比 较 净 损失 (4850 美元 ) 与 原来 的 损失 〈10500 美元 ) ， 已 经 减少 了 约 50% 
(46%) 的 损失 。 

这 个 数字 对 于 太阳 能 基础 设施 用 例 来 说 显然 是 切切 实 实 的 。 

因此 可 总 结 出 来 ， 通 过 将 最 终 客 户 的 损失 减少 了 50% (假设) ， 解 决 了 停电 的 不 确 
定性 问题 。 


6.6 小 结 


在 本 章 中 ， 通 过 解决 太阳 能 行业 一 个 全 新 的 用 例 ， 加 强 了 决策 科学 的 学 习 。 运 用 解 
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析 问 题 和 设计 问题 的 方法 和 蓝图 ， 对 相同 的 解决 问题 的 根本 原因 开始 分 析 。 经 过 研究 ， 
与 以 前 的 用 例 相 比 ， 本 章 用 例 中 的 问题 陈述 更 加 具体 和 范围 更 加 缩小 。 我 方 团队 解决 了 
太阳 能 技术 停电 的 不 确定 性 问题 。 在 清晰 地 解析 了 问题 陈述 之 后 ， 探 索 太 阳 能 电池 板 和 
基础 设施 的 传感器 数据 ， 以 查找 模式 和 相关 信息 。 在 〈 通 过 调研 和 咨询 行业 专家 ) 收集 
了 数据 和 领域 的 基础 背景 信息 之 后 ， 加 工 出 更 好 的 特征 来 解决 问题 。 

随后 ， 利 用 在 第 5 章 中 学 到 的 这 些 特征 和 机 器 学 习 算法 ， 构 建 出 一 个 预测 模型 ， 用 
以 提前 一 天 预测 太阳 能 电池 板 基础 设施 停电 的 可 能 性 。 通 过 基本 的 业务 假设 ， 为 客户 汇 
总 并 验证 了 解决 方案 ,而 且 , 通过 事先 预测 太阳 能 技术 停电 的 可 能 性 , 将 损失 减少 了 50%。 
因此 ， 顺 利 完成 了 整个 解决 问题 的 速成 分 析 ， 同 时 也 加 强 了 对 物 联网 决策 科学 的 学 
习 。 在 第 7 章 中 ， 将 接触 解决 问题 的 下 一 个 层面 一 规范 性 科学 。 并 且 ， 打 算 采 用 一 个 
假设 的 例子 和 一 些 现实 生活 中 的 例子 ， 探 究 学 习 如 何 战胜 业务 灾难 。 
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预测 性 分 析 将 分 析 和 决策 的 能 力 扩展 到 了 一 个 卓越 的 水 平 。 这 里 将 日 常生 活 作为 一 
个 例子 。 如 果 能 回答 出 “ 何 时 ”的 问题 ， 那 么 就 能 帮助 人 们 做 出 更 好 的 决策 ， 为 未 来 保 
驾 护 航 。 对 未 来 的 预见 性 会 让 每 个 人 更 加 轻松 自如 地 生活 。 决 策 科 学 中 的 问题 解决 也 是 
如 此 。 问 题 的 性 质 可 以 是 描述 性 、 探 查 性 、 预 测 性 或 规范 性 的 。 规 范 性 科学 或 规范 性 分 
析 (Prescriptive Analytics) 回答 这 个 问题 ， 即 “那么 会 发 生 什么 /现在 该 做 什么 ”， 虽 在 
改进 问题 的 结果 。 人 们 在 日 常 分 析 操 作 中 看 到 问题 后 也 经 常会 如 此 发 问 。 

规范 性 分 析 是 描述 性 、 探 查 性 和 预测 性 分 析 相 融合 的 一 种 模糊 过 渡 。 这 个 问题 到 达 
了 一 个 点 ， 即 此 刻 要 对 各 种 不 同 的 问题 不 断 地 先 代 ， 不 管 是 从 业务 问题 中 恢复 或 者 进 一 
步 改进 解决 方案 。 在 本 章 中 ， 将 采用 一 个 假设 的 例子 来 探 明 规范 分 析 的 细微 差别 。 与 此 
同时 ， 了 解 可 以 采取 什么 行动 能 从 业务 问题 中 恢复 ， 或 运用 从 描述 性 + 探查 性 + 预测 性 堆 
栈 中 学 到 的 知识 进一步 改进 解决 方案 。 完 成 端 到 端的 问题 堆栈 之 后 ， 则 会 将 各 个 学 习 点 
连接 起 来 ， 更 详细 地 研究 决策 科学 中 问题 的 相互 关联 性 。 

本 章 将 介绍 以 下 主题 ; 
应 用 一 种 分 层 方法 和 各 种 测试 控制 方法 战胜 业务 问题 。 
将 结果 与 数据 驱动 和 启发 式 驱动 的 假设 联系 起 来 。 
连接 问题 体系 中 的 各 个 点 。 
构造 并 理解 问题 体系 中 相互 关联 的 问题 。 
实施 解决 方案 。 


口 口 口 口 口 


7.1 应 用 一 种 分 层 方 法 和 各 种 测试 控制 方法 战胜 业务 问题 


规范 性 科学 是 描述 性 分 析 、 探 查 性 分 析 和 预测 性 分 析 三 者 的 融合 。 它 是 一 种 分 层 的 
方法 ， 而 且 一 直 帮 代 到 解决 方案 令 人 满意 为 止 。 为 了 清楚 地 理解 这 个 概念 ， 现 从 外 行人 
的 角度 用 重 构 抽 象 和 模糊 的 词 来 简化 它 。 

7.1.1 规范 性 分 析 的 定义 


规范 性 分 析 有 助 于 回答 在 问题 解决 练习 中 的 “那么 会 发 生 什 么 /现在 该 做 什么 ”， 也 
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就 是 帮助 改进 结果 。 这 是 问题 解决 (堆栈 ) 的 最 后 一 层 ， 是 前 3 种 类 型 (描述 性 分 析 + 好 
奇 性 分 析 + 预 测 性 分 析 ) 的 融合 。 

接 下 来 将 举 一 个 浅显 易 懂 的 例子 ， 以 便 更 详细 地 研究 这 个 问题 。 比 如 一 家 提供 诸如 
宽带 连接 、IPTV、 移 动 电话 连接 等 多 种 服务 的 电信 巨头 〈 例 如 AT&T, Verizon 等 ) 。 客 
户 体验 团队 的 主管 马克 希望 解决 一 个 问题 。 该 问题 最 初 从 〈 问 题解 决 堆栈 ) 第 一 层 开始 ， 
即 试图 做 出 回答 的 描述 性 分 析 。 

1. 发 生 了 什么 

马克 的 团队 研究 各 种 报告 后 对 数据 进行 分 析 ， 发 现 联 络 中 心 〈 呼 叫 中 心 ) 的 整体 运 
营 成 本 增加 了 20%。 这 主要 是 由 于 过 去 几 周 某 个 区 域 的 客户 来 电 超大 流量 而 造成 的 。 

2. 为 什么 以 及 如 何 发 生 的 

某 些 操 作 区 域 的 网 络 中 出 现 拥塞 ， 导 致 网 速 下 降 ， 掉 线 等 。 慎 怒 的 客户 一 直 在 不 断 
地 向 客服 主管 提出 投诉 和 账单 / 退 款 问题 。 

3. 什么 时 候 会 再 发 生 

该 团队 探索 数据 ,构建 了 各 种 预测 模型 ， 用 来 预测 客户 何 时 进行 下 一 次 呼叫 (例如 8 
天 之 后 ) ， 而 且 还 要 构建 各 种 预报 模型 ， 用 以 预测 未 来 几 周 预期 的 呼叫 量 。 这 些 数字 显 
示 ， 客 服 座席 处 理 的 电话 数量 出 现 了 惊人 的 增长 。 

4. 那么 会 发 生 什 么 /现在 该 做 什么 

客户 体验 主管 马克 此 刻 面 临 着 无 比 巨大 的 压力 。 为 了 解决 这 个 问题 ， 他 要 求 他 的 团 
队 快 速 解决 问题 ， 以 减轻 业务 问题 。 超 大 呼叫 量 将 会 扼杀 代理 商 的 带宽 ， 增 加 客户 的 通 
话 等 待 时 间 ， 登 记 的 投诉 将 很 难 被 解决 ， 最 终 也 会 影响 客户 体验 。 一 些 愤怒 的 客户 甚至 
可 能 停止 使 用 这 些 服务 ， 转 而 选择 竞争 对 手 的 服务 /产品 。 这 种 情况 不 仅 会 造成 巨大 的 商 
业 损失 ， 也 会 严重 影响 公司 的 品牌 价值 。 马 克 需 要 立即 采取 行动 解决 问题 ， 减 轻 业 务 问 
题 的 影响 。 

现在 对 这 个 案例 有 了 一 个 总 体 的 了 解 ， 接 下 来 要 试 着 简单 地 理解 “那么 会 发 生 什 么 / 
现在 该 做 什么 ”的 答案 。 马 克 的 团队 已 完成 了 最 初 的 一 系列 分 析 ， 并 且 贯 穿 了 问题 的 描 
述 性 、 探 查 性 和 预测 性 分 析 。 因 此 ， 已 经 有 了 “是 什么 ”“ 为 什么 ”“ 何 时 ”的 答案 。 
此 时 到 达 了 一 个 点 ， 即 要 问 “那么 会 发 生 什么 ……” (客服 座席 的 呼叫 量 大 幅 增 加 最 终 
将 导致 巨大 的 商业 损失 ) ， 以 及 “现在 该 做 什么 ……” (团队 需要 迅速 采取 对 策 来 解决 
问题 以 缓解 业务 问题 ) 。 作 为 一 种 补救 措施 ， 我 们 将 从 小 处 着 手 ， 但 在 解决 问题 时 ， 还 会 
发 现 很 多 新 问题 。 为 了 解决 这 些 问题 ， 需 要 遍历 问题 堆栈 直到 为 整个 问题 找到 解决 方案 。 
因此 ， 规 范 性 分 析 是 指 ， 将 整个 问题 堆栈 中 收集 到 的 各 种 洞 见 和 答案 融合 在 一 起 的 
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一 个 结果 。 整 个 过 程 可 以 用 图 7.1 来 概括 。 


超大 呼叫 量 增 加 了 运营 成 本 


由 于 网 络 拥塞 ， 掉 线 频繁 以 及 网 速 下 降 ， 客 户 各 种 
投诉 要 求 改善 服务 


如 何以 及 为 什么 ? 
随后 几 周 呼叫 量 有 望 再 增加 10% 


何 时 ? 


可 能 会 发 生 巨大 的 业务 损失 
| we Me 


那么 会 发 生 什么 /现在 该 做 什么 ? 需要 裁减 座席 的 数量 ， 
需要 建立 出 站 活动 
IVR 系统 亟 须 变 得 更 为 稳健 以 解决 这 个 问题 


图 7.1 


概 而 言 之 ， 规 范 性 分 析 可 以 被 定义 为 找到 给 定 情况 的 最 佳 行动 方案 。 
此 时 对 规范 性 分 析 有 了 较 清楚 的 理解 ， 接 下 来 研究 一 些 措施 ， 看 看 如 何 得 出 针对 特 
定 情况 的 最 佳 建议 行动 。 


7.1.2 解决 一 个 规范 性 分 析 用 例 


举 一 个 假设 的 用 例 ， 借 此 深入 了 解 可 以 用 来 缓解 业务 问题 的 不 同方 法 。 下 面 将 用 分 
层 的 方法 来 解决 问题 ， 也 就 是 说 ， 从 描述 性 开始 ， 再 转向 探查 性 和 预测 性 的 解决 方案 。 
融合 3 个 层面 的 所 有 知识 ， 会 不 断 接近 规范 性 分 析 。 大 多 数 情况 下 ， 在 使 用 规范 性 分 析 
解决 问题 的 同时 ， 会 根据 更 新 的 问题 进行 调整 。 分 层 方法 遍历 整个 堆栈 中 的 每 个 问题 ， 
并 最 终 解 决 问题 体系 中 的 所 有 相互 关联 的 问题 。 在 第 1 章 “ 物 联网 和 决策 科学 ”和 第 2 
章 “ 物 联网 问题 体系 研究 和 用 例 设计 ”中 研究 了 问题 的 相互 关联 性 。 

随后 将 用 电信 行业 的 一 个 用 例 〈 假 设 ) 来 举例 。 此 用 例 与 之 前 研究 的 例子 类 似 ， 但 
稍微 详细 一 些 且 略 有 不 同 。 

1. 用 例 的 背景 信息 

一 家 跨国 业务 的 领先 电信 巨头 ， 主 要 为 消费 者 和 企业 提供 移动 电话 服务 、IPTV 和 宽 
带 服务 。 该 电信 巨头 的 客户 体验 团队 运营 一 个 呼叫 中 心 ， 支 持 聊 天 、 语 音 来 电 、IVR、 出 
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站 活动 和 电子 邮件 以 解决 客户 的 投诉 。 客 户 体验 团队 主管 马克 负责 以 最 低 的 运营 成 本 实 
现 平稳 运营 ， 而 不 会 影响 客户 的 满意 度 。 

此 处 采用 和 前 面 一 样 的 一 组 问题 来 构建 用 例 。 

2. 描述 性 分 析 一 一 发 生 了 什么 

马克 最 近 研 究 发 现 由 于 呼叫 量 增加 ， 呼 叫 中 心 的 运营 成 本 一 直 在 上 涨 。 那 么 仔细 观 
察 一 下 。 会 不 会 是 因为 客户 数量 增加 而 导致 呼叫 次 数 增加 ? 或 者 会 不 会 是 一 个 季节 性 模 
式 ， 导 致 在 一 年 中 的 通话 量 普遍 较 高 ? 

为 了 总 结 调查 结果 ， 不 仅 要 对 数据 进行 切片 和 切 块 ， 而 且 也 要 肯定 地 确认 由 于 呼叫 
量 增加 ， 运 营 成 本 是 否 确实 增加 。 如 果 呼 叫 量 是 由 于 客户 数量 的 增加 ， 那 么 由 于 呼叫 量 
增加 ， 无 法 证 明 运营 成 本 增加 。 如 前 所 述 ， 马 克 的 职责 包括 以 最 低 的 运营 成 本 保持 平稳 
的 运营 ， 而 不 影响 客户 体验 。 

以 下 可 视 化 图 展示 了 对 数据 假设 数据 ) 的 切片 和 切 块 操作 的 结果 。 

先 来 看 看 年 度 呼叫 量 和 同比 呼叫 量 的 百分比 增长 率 ， 如 图 7.2 所 示 。 


年 度 呼叫 量 和 同比 呼叫 量 的 百分比 增长 率 分 布 
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可 以 清楚 地 看 到 ， 过 去 5 年 里 每 年 的 呼叫 量 有 一 个 递增 的 趋势 。 柱 形 图 显示 呼叫 量 同 
比 增长 几乎 一 致 。2012 年 增幅 最 小 , BD 1196; 在 大 多 数 情况 下 ,呼叫 量 表现 出 稳定 的 增长 。 

那么 ， 呼 叫 增长 是 否 可 以 归 因 于 客户 增长 呢 ? 

答案 是 肯定 的 。 随 着 客户 数量 的 增长 ， 呼 叫 中 心 收 到 的 呼叫 量 也 会 增长 。 但 是 ， 需 
要 检查 呼叫 量 的 增长 是 否 与 客户 增长 成 正比 。 该 如 何 检查 这 一 点 ? 

为 了 近似 地 看 到 呼叫 量 的 增长 是 否 与 日 益 增长 的 客户 群 成 正比 ， 要 定义 一 个 归 一 化 
的 维 数 或 向 量 ， 这 基本 上 是 关于 呼叫 或 客户 标准 化 的 关键 绩效 指标 〈KPI) 。 可 定义 一 个 
KPI， 如 每 个 客户 的 呼叫 量 一 一 总 活跃 客户 数 的 总 呼叫 数 。 
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下 面 绘制 多 年 来 每 个 客户 的 呼叫 量 分 布 情况 ， 如 图 7.3 所 示 。 


数 年 来 呼叫 /客户 分 布 
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图 73 


正如 所 看 到 的 ， 尽管 随 着 客户 数量 的 增长 ， 呼 叫 次 数 也 在 增长 , 但 从 2014 年 到 2015 
年 ， 每 个 客户 的 呼叫 次 数 表 定 增加 了 很 多 。 这 可 以 帮助 确认 ， 整 体 而 言 在 呼叫 中 心 的 年 
度 呼 叫 量 出 现 显著 的 增长 。 

接 下 来 ， 需 要 回答 为 什么 整体 年 度 呼叫 量 有 所 增长 ? 这 意味 着 要 通过 探查 性 分 析 来 
RARIK. 

3. 探查 性 分 析 一 一 为 什么 以 及 如 何 发 生 

为 了 理解 整体 呼叫 量 增长 的 原因 ， 要 遵循 相同 的 (解决 问题 的 ) 普遍 过 程 。 以 下 将 
解析 问题 , 对 各 种 因素 进行 头脑 风暴 和 假设 , 而 且 设计 解决 方案 的 蓝图 (问题 解决 框架 ) 。 
在 探索 性 数据 分 析 阶 段 ， 将 深入 分 析 数 据 ， 找 出 呼叫 量 增长 的 原因 。 

在 收集 的 所 有 假设 中 ， 其 中 一 个 因素 是 “重复 呼叫 ”， 即 客户 一 次 又 一 次 地 就 同一 
个 问题 呼叫 。 有 一 个 简单 的 业务 规则 可 以 帮助 定义 一 个 重复 的 呼叫 ， 它 指 的 是 在 48 小 时 
内 从 同一 个 客户 呼 入 的 另 一 个 电话 。 为 了 验证 此 假设 ， 每 个 客户 的 呼叫 量 增加 了 ， 最 终 
也 增加 了 每 年 的 呼叫 量 ， 而 这 主要 是 由 于 来 自 客户 的 重复 呼叫 。 客 户 再 次 打 电 话 来 了 解 
这 个 问题 ， 因 为 在 首次 呼叫 时 没有 提 到 这 个 问题 。 

这 似乎 是 一 个 有 效 的 假设 。 下 面 就 来 深入 分 析 数 据 ， 看 看 数据 的 分 布 如 何 ， 如 图 7.4 
所 示 。 
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数 年 来 重复 呼叫 量 和 首次 呼叫 量 的 分 布 


2010 2011 2012 2013 2014 2015 


时 重复 呼叫 自首 次 呼叫 


图 7.4 


从 图 7.4 可 观察 到 , 每 年 重复 呼叫 占 整 体 呼叫 量 的 20%。 但是， 这 仍然 是 相关 的 吗 ? 
因为 它 可 能 与 每 年 越 来 越 多 的 呼叫 量 同 步 。 为 了 验证 假设 ， 还 要 再 多 提出 一 个 观点 ， 用 
以 研究 重复 呼叫 率 是 否 确实 有 所 提高 。 以 下 绘制 了 一 个 堆 又 条 形 图 ( 见 图 7.5) ， 其 中 包 
括 各 年 的 “重复 呼叫 ”和 “首次 呼叫 ”百分比 。 


各 年 “重复 呼叫 ”和 “首次 呼叫 ”百分比 分 布 堆 到 图 


2010 2011 2012 2013 2014 2015 


重重 复 呼叫 百分比 加 首次 呼叫 百分比 


图 7.5 
现在 可 以 得 出 结论 : 假设 为 真 。 也 就 是 说 ， 重 复 呼 叫 率 确实 同比 有 所 上 升 。 这 可 能 


第 7 章 ”规范 性 科学 与 决策 “257。 


是 本 年 度 每 个 客户 呼叫 量 增长 的 潜在 原因 之 一 。 

但 是 ， 如 果 客 户 正在 重复 呼叫 ， 他 们 又 是 如 何 重复 的 呢 ? 是 出 于 同样 的 原因 还 是 不 
同 的 原因 ? 

通常 情况 下 ， 由 处 理 该 问题 的 IVR 或 座席 为 来 电 分 配 呼叫 类 型 。 呼 叫 类 型 可 以 是 诸 
如 “无 法 连接 网 络 ”“ 网 速 慢 ”“ 计 费 问题 ”“ 请 勿 打扰 激活 ”“ 充 值 计 划 ” 等 。 现 在 
的 问题 是 ， 如 果 一 个 客户 呼叫 要 求 排除 互联 网 故障 ， 后 来 在 48 小 时 内 为 计 费 问题 再 次 至 
电 ， 那 么 这 是 一 个 重复 呼叫 还 是 一 种 巧合 ? 

尽管 假设 似乎 有 效 ， 但 仍然 需要 检查 更 多 的 有 效 性 。 如 果 100 个 电话 中 有 20 个 重复 
〈 基 于 业务 规则 ) ， 并 且 其 中 1518 个 重复 呼叫 是 由 于 不 同 的 原因 ， 那 么 不 能 将 重复 呼 
叫 确定 为 呼叫 量 增长 的 因素 之 一 。 这 可 能 是 一 个 普通 的 问题 ， 恰 巧 被 标记 为 重复 呼叫 。 

紧 接着 来 看 看 重复 呼叫 的 数据 分 布 情况 ， 更 加 仔细 地 查看 具体 原因 ， 也 就 是 具有 相 
同 原 因 的 重复 呼叫 和 具有 不 同 原因 的 重复 呼叫 。 这 里 可 以 定义 ， 在 48 小 时 内 的 一 个 “ 同 
样 原 因 重 复 呼叫 ”参数 ) 作为 同一 客户 的 一 次 额外 呼叫 ， 以 用 于 相同 原因 的 重复 呼叫 。 
而 “不 同 原因 重复 呼叫 ” (参数 ) 则 用 于 不 同 原因 的 重复 呼叫 。 因 此 ， 如 果 客 户 因为 同 
样 的 原因 在 48 小 时 内 再 次 呼叫 “网 速 慢 的 问题 ”， 这 就 属于 “相同 原因 重复 呼叫 ”。 和 否 
则 ， 如 果 同 一 客户 因 其 他 原因 在 48 小 时 内 打 另 一 个 电话 ， 比 如 说 “ 计 费 问题 ”或 “充值 
计划 ”， 则 将 其 归 类 为 “不 同 原因 重复 呼叫 ”。 图 7.6 显示 了 各 年 相同 原因 和 不 同 原因 的 
重复 呼叫 分 布 。 


各 年 相同 原因 和 不 同 原因 的 重复 呼叫 分 布 
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图 7.6 
可 以 注意 到 ， 大 部 分 重复 呼叫 都 是 出 于 同样 的 原因 。 大 约 四 分 之 一 呼叫 重复 的 原因 
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可 能 是 一 个 真正 的 呼叫 重复 或 可 能 只 是 一 种 巧合 。 图 7.7 绘制 了 多 年 来 相同 原因 和 不 同 原 
因 的 重复 呼叫 百分比 的 堆 又 百分比 分 布 。 并 且 从 中 发 现 ， 在 大 多 数 情况 下 一 个 不 同 原因 
的 重复 呼叫 的 百分比 大 概 处 于 2096— 3096. 


各 年 相同 原因 和 不 同 原因 重复 呼叫 的 百分比 分 布 堆 释 图 


2010 2011 2012 2013 2014 2015 


加 相同 原因 重复 呼叫 百分比 卓 不 同 原因 重复 呼叫 百分比 


图 7.7 


所 以 可 以 肯定 地 认为 ， 高 重复 呼叫 率 是 导致 整体 呼叫 量 增长 的 因素 之 一 。 

接 下 来 的 步骤 是 什么 ? 现在 解答 了 问题 的 “是 什么 ”“ 为 什么 和 如 何 做 ”。 下 面 研 
究 预 测 性 分 析 如 何 才能 帮助 解决 问题 ? 

4. 预测 性 分 析 一 一 何 时 会 发 生 

马克 目前 对 这 个 问题 已 了 然 于 心 。 他 的 团队 研究 了 问题 的 根本 原因 ， 现 在 想 用 预测 
性 分 析 来 增强 结果 。 在 一 般 情况 下 ， 借 助 预测 的 能 力 ， 此 时 可 以 利用 各 种 功能 强大 的 机 
器 学 习 算法 ， 以 帮助 预测 以 下 信息 。 
Q ”预测 未 来 6 个 月 的 每 月 总 呼叫 数 ， 有 助 于 团队 优化 人 员 配 置 ， 更 高 效 地 处 理 大 
量 呼叫 电话 。 
D ”预测 未 来 6 个 月 每 月 重复 呼叫 率 的 量 ， 通 过 研究 导致 重复 呼叫 的 模式 ， 使 团队 
能 够 预见 并 相应 采取 行动 减少 重复 呼叫 。 
口 ”预测 第 二 天 即将 收 到 的 重复 呼叫 次 数 : 使 团队 准备 好 研究 重复 呼叫 原因 所 需 的 
技能 ， 并 采取 措施 避免 进一步 的 重复 呼叫 。 
D ”实时 预测 客户 是 否 会 在 未 来 48 小 时 内 重复 呼叫 : 有 助 于 在 通话 过 程 中 采取 实时 

行动 ， 以 减少 重复 呼叫 的 可 能 性 。 
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为 了 简单 起 见 ， 假 设 前 面 列表 中 前 3 种 技术 的 结果 如 下 。 
Q 未 来 6 个 月 的 呼叫 量 环比 增长 8% 一 10%。 
口 未 来 6 个 月 重复 呼叫 率 的 量 环比 增长 约 10%. 
OQ ”预计 第 二 天 的 重复 呼叫 次 数 增加 约 10%。 
5. 开始 规范 性 分 析 
借助 对 未 来 的 预见 性 ， 马 克 的 团队 清楚 明白 了 为 了 改进 业务 他 们 需要 即刻 采取 的 下 
一 步 措施 。 而 这 也 正 是 规范 性 分 析 在 解决 问题 的 过 程 中 开始 显露 身手 的 时 候 。 

在 了 解 发 生 了 什么 ， 或 者 知道 可 能 发 生 的 事情 之 后 ， 实 施 规范 性 分 析 的 行为 就 开始 
了 。 举 一 个 日 常生 活 中 的 例子 。 假 设 您 是 计算 机 工程 专业 的 大 三 学 生 。 离 学 期 考试 还 有 
一 个 月 的 时 间 ， 所 以 要 开始 准备 考试 。 根 据 在 前 几 学 期 的 表现 ， 您 对 编程 技能 略 有 了 解 。 
比方 说 ， 擅 长 编程 ， 但 是 却 不 熟悉 计算 机 网 络 。 因 此 ， 会 花 更 多 的 时 间 来 学 习 计算 机 网 
络 课 程 。 同 样 ， 假 设 您 从 教授 那里 知道 有 一 个 非常 简单 的 数学 考试 ， 而 您 在 数学 方面 表 
现 十 分 出 色 。 那 么 您 一 定 会 花 更 少 的 精力 为 数学 考试 做 准备 。 这 就 是 规范 性 分 析 的 工作 
原理 。 

从 更 高 层次 上 分 析 ， 您 正在 尝试 解决 一 个 问题 ， 而 且 对 这 个 问题 的 根本 原因 有 深入 
的 了 解 ， 或 者 可 能 知道 接 下 来 会 发 生 什么 。 接 着 ， 您 将 相应 地 调整 解决 方案 以 改进 结果 。 
规范 性 分 析 正 是 一 个 反复 的 过 程 ， 需 要 大 量 的 试 错 来 优化 结果 。 

在 前 述 用 例 中 ， 我 方 团队 明白 了 所 发 生 事件 的 性 质 以 及 对 即将 发 生 的 事件 也 取得 了 
一 定 见 解 。 作 为 解决 方案 的 一 部 分 ， 马 克 这 时 致力 于 解决 问题 以 减轻 业务 问题 带 来 的 危 
险 。 假 设 预测 是 100% 正 确 的 (尽管 预测 并 不 总 是 100% 正 确 ) ， 来 看 看 会 发 生 什么 样 的 
损害 。 

客户 来 电 呼叫 量 近期 〈 过 去 几 个 月 内 ) 出 现 大 幅 上 涨 ， 而 且 根据 预测 ， 呼 叫 量 似乎 
会 环比 上 涨 约 8% 一 10%。 这 提示 在 接 下 来 的 几 个 月 内 将 面临 巨大 的 资源 紧缺 ， 即 客服 座 
席 ( 远 远 不 够 ) 。 目 前 ， 从 整个 客户 群 中 打 来 的 电话 每 个 月 约 120 万 个 电话 。 如 果 预 计 
未 来 6 个 月 呼叫 量 环 比 增长 8% 一 10%, 那么 在 6 个 月 后 , 将 平均 每 月 收 到 200 万 个 电话 。 
只 需 通过 简单 的 数学 计算 ， 就 会 明白 需要 增加 座席 人 数 来 接听 暴涨 的 电话 。 可 是 这 绝对 
不 是 一 个 理想 的 情况 。 在 此 肯定 能 够 通过 增加 座席 人 数 来 解决 问题 ， 但 是 需要 小 心 谨慎 
地 采取 这 种 做 法 ， 以 免 产 生 巨 大 的 运营 开支 。 最 好 的 办 法 是 稍微 增加 人 员 ， 同 时 采取 措 
施 减少 来 电 。 

所 以 从 技术 上 而 言 ， 有 两 个 更 高 层次 的 解决 方案 来 解决 这 个 问题 。 
口 增加 人 员 接 听 更 多 来 电 呼叫 。 
口 “ 实 施 对 策 以 减少 来 电 呼叫 。 
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讨论 减少 来 电 的 对 策 是 一 个 非常 广泛 的 话题 ， 但 这 些 对 策 大 概 包 括 以 下 几 点 。 
口 使 IVR 变 得 更 加 稳健 ， 以 便 在 IVR 内 解决 呼叫 问题 。 

O ”通过 电子 邮件 和 自动 IVR， 针 对 常见 问题 的 解决 方案 设置 出 站 活动 。 

Q 立即 解决 客户 经 常 打 来 的 技术 问题 。 

O 在 呼叫 通话 时 指导 客户 应 该 采取 的 下 一 个 步骤 ， 以 避免 重复 呼叫 。 

Q ”通过 互联 网 发 布 自 助 指 导 ， 让 客户 自行 解决 常见 的 问题 等 。 

可 以 观察 到 ， 此 时 一 个 单一 的 问题 已 经 被 分 解 成 了 多 个 小 问题 。 这 些 问 题 中 的 每 一 
个 都 需要 单独 解决 ， 并 且 可 能 需要 采用 端 到 端 解决 问题 的 方法 去 解决 每 个 问题 。 而 且 ， 
所 有 这 些小 问题 实际 上 是 相互 关联 的 。 如 果 没 有 解决 个 别 问题 ， 就 无 法 解决 主要 问题 。 
在 第 1 章 “ 物 联网 和 决策 科学 ”中 清楚 了 问题 的 体系 ， 它 详细 描述 了 相互 关联 问题 的 性 
质 。 当 到 达 规 范 性 分 析 层 时 ， 可 以 更 详细 地 研究 问题 的 体系 。 图 7.8 描述 了 该 问题 的 一 个 
相互 关联 的 问题 体系 。 


推行 员工 培训 计划 以 更 好 地 提高 首次 呼叫 解决 率 
' 


改进 IVR 操作 以 提高 呼叫 完成 率 
9 对 客户 面临 的 所 有 常见 技术 问题 展开 即刻 修复 工作 
` 9 


Q 为 一 家 电信 巨头 呼叫 中 心 减 少 呼 入 来 电量 


e- 
改善 在 线 资源 方便 客户 自助 解决 


$ E 
设计 出 站 IVR/ 电 子 邮件 活动 ， 为 客户 常见 问题 提供 解决 方案 在 实时 通话 中 教导 客户 以 避免 重复 呼叫 


图 7.8 
6. 用 规范 性 分 析 更 深入 地 分 析 
为 了 根据 探查 性 和 预测 性 分 析 阶 段 的 结果 来 改进 结果 ， 可 以 采用 的 方法 多 种 多 样 。 
在 业务 问题 中 ， 团 队 作为 一 种 资源 通常 会 按时 间 以 最 低 〈 成 本 ) 进行 运营 ， 因 此 广泛 的 
试 错 练习 会 变 得 异常 奢侈 且 不 可 采用 。 为 了 保持 流程 灵活 多 变 ， 大 多 数 企业 都 使 用 A-B 
测试 或 快速 测试 和 控制 技术 来 评估 解决 方案 的 有 效 性 ， 而 不 会 影响 整个 业务 。 下 面 认真 
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研究 在 用 例 中 实施 过 这 些 策略 的 例子 。 
7.1.3 用 规范 性 的 方式 去 解决 用 例 


作为 规范 性 分 析 解 决 方案 的 一 部 分 ， 企 业 通 常 需要 验证 当前 方案 的 有 效 性 。 这 种 方 
案 是 否 会 造成 巨大 的 损失 ? 客户 会 不 会 不 喜欢 ? 或 者 实际 上 会 不 会 对 业务 有 所 改进 ? 为 
了 找到 所 有 这 些 问 题 的 答案 ,可 以 实施 一 个 十 分 简单 的 策略 ， 即 “测试 和 控制 分 析 (Test 
and Control Analysis) ”。 

1. 测试 和 控制 分 析 

在 测试 和 控制 分 析 中 ， 从 总 体 中 随机 抽取 两 个 样本 进行 实验 。 唯 一 的 规则 是 两 个 样 
本 在 行为 上 应 该 一 致 ， 换 言 之 ， 如 果 选 择 客户 样本 进行 实验 ， 那 么 这 两 个 组 应 该 具有 类 
似 的 行为 ， 比 如 入口 统计 学 或 基于 客户 类 型 的 业务 。 下 面 将 设计 一 个 简单 的 实验 针对 
使 用 电子 邮件 的 客户 提供 丰厚 的 节日 优惠 。 从 确定 的 两 个 样本 组 中 ， 仅 对 其 中 一 个 样本 
进行 实验 ， 因 此 称 之 为 “测试 ” 组 。 另 一 组 没有 进行 实验 的 组 被 称 为 “控制 ”组 ?。 可 以 
通过 比较 测试 组 和 控制 组 结果 的 差异 来 研究 实验 的 影响 。 

假设 要 测试 电子 邮件 活动 对 零售 店 折扣 优惠 的 有 效 性 。 可 为 实验 确定 一 个 测试 组 和 
控制 组 ， 并 将 电子 邮件 /信件 发 送 给 测试 组 。 那 么 ， 就 能 够 观察 到 测试 组 与 控制 组 相 比 的 
不 同 表 现 。 如 果 测 试 组 的 反应 比 控制 组 好 得 多 ， 可 以 得 出 这 样 的 结论 : 电子 邮件 活动 的 
有 效 性 是 正面 的 ， 即 人 们 对 这 个 活动 充满 热情 。 如 果 没 有 什么 重大 差别 ， 则 可 得 出 这 个 
结果 为 中 性 的 ， 也 就 是 说 ， 这 个 活动 没有 产生 什么 重大 的 影响 。 在 某 些 情况 下 ， 如 果 控 
制 组 的 反应 比 测试 组 更 好 ， 则 电子 邮件 活动 也 可 能 会 产生 负面 影响 。 

使 用 测试 和 控制 方法 ， 可 以 很 容易 地 研究 设计 在 较 小 样本 上 的 不 同 实验 的 影响 ， 而 
无 须 对 总 体 进行 设计 分 析 。 这 样 的 实验 能 够 帮助 企业 更 好 地 做 出 决策 ， 以 改进 他 们 用 以 
解决 风险 降低 问题 的 结果 。 在 现实 生活 中 也 经 常见 证 类 似 的 实验 。Facebook 最 近 的 “ 实 
时 视频 ”功能 最 初 只 发 布 到 一 个 小 型 社区 。 后 来 根据 结果 和 反馈 ， 越 来 越 多 的 用 户 组 直 
至 最 终 每 个 人 都 可 以 使 用 该 功能 。 

2. 在 规范 性 分 析 中 实施 测试 和 控制 分 析 

在 用 例 中 ， 这 里 已 经 到 达 了 从 预测 性 分 析 中 获得 各 种 洞 见 的 一 个 点 ， 并 且 在 探查 性 
分 析 时 充分 地 理解 了 根本 原因 。 而 且 还 设计 了 一 个 微型 的 问题 体系 ， 它 反映 了 正在 解决 
的 问题 的 相互 关联 性 。 为 了 继续 往 前 分 析 ， 需 要 设计 一 些 实验 来 改进 结果 ， 也 就 是 减少 
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客户 呼叫 来 电 。 

下 面 来 看 看 基于 探查 性 和 预测 性 分 析 阶 段 的 学 习 ， 能 够 采取 什么 样 的 实验 用 以 改进 
结果 。 随 后 将 探讨 从 问题 的 体系 中 确定 的 一 些小 问题 。 

3. 改进 IVR 操作 以 提高 呼叫 完成 率 

所 有 来 电 在 到 达 座席 之 前 首先 通过 IVR。 如 果 改进 IVR 操作 ， 就 可 以 减少 呼叫 量 。 
为 了 提高 IVR 呼叫 收容 率 或 完成 率 , 需要 确定 将 客户 呼叫 转 给 座席 的 漏洞 .通过 分 析 IVR 
数据 ， 可 以 确定 以 下 几 个 宽泛 的 领域: 

O “识别 客户 历经 的 常见 路 径 。 

Q “研究 呼 叫 转移 到 座席 的 常见 选项 。 

Q “客户 对 选择 一 个 选项 感到 困惑 的 节点 〈 例 如 ， 语 言 /措辞 太 复 杂 等 ) 。 

根据 调查 结果 ， 可 以 实施 一 些 修复 ， 尽 可 能 帮助 客户 在 IVR 内 完成 呼叫 。 例 如 ， 将 
添加 西班牙 语 作为 一 个 选项 可 能 会 减少 呼叫 转移 ， 或 向 IVR 增加 一 个 新 的 应 用 程序 ， 例 
如 (之 前 没有 的 ) 自动 提出 针对 计 费 问题 的 投诉 ， 也 可 能 会 减少 呼叫 量 。 但 是 ， 在 大 多 
数 情况 下 ， 利 益 相关 者 不 能 百分之百 地 确定 ， 这 些 是 否 是 解决 问题 和 改进 结果 的 最 佳 技 
术 。 因 此 ， 为 了 安全 起 见 ， 选 择 测试 和 控制 分 析 。 可 用 一 个 小 样本 测试 组 ) 来 测试 新 
特征 ， 并 将 结果 与 控制 组 进行 比较 。 如 果 结 果 是 有 利 的 ， 也 就 是 说 ， 看 到 测试 组 中 的 呼 
叫 完成 率 比 控制 组 更 高 ， 就 可 以 将 该 特征 推广 到 更 大 的 样本 。 

4. 减少 重复 呼 岂 

在 大 多 数 情况 下 ， 由 于 在 通话 期 间 提供 的 信息 不 足 ， 客 户 重复 呼叫 的 可 能 性 很 高 。 
但 是 ， 座 席 难以 向 所 有 客户 一 次 又 一 次 重复 信息 。 而 且 还 会 增加 通话 时 间 ， 从 而 增加 运 
营 成 本 。 此 处 采用 一 种 更 优化 的 方式 ， 可 以 利用 预测 性 分 析 阶 段 中 构建 的 机 器 学 习 模型， 
更 有 效 地 帮助 座席 。 

如 果 机 器 学 习 模型 能 够 实时 预测 ， 例 如 在 20 分 钟 通话 中 的 15 分 钟 内 ， 处 理 呼叫 的 
座席 可 以 选择 性 地 更 好 地 指导 客户 下 一 步 的 步骤 以 避免 重复 呼叫 。 只 针对 潜在 客户 不 会 
给 座席 带 来 负担 ， 但 会 增加 整个 通话 时 长 。 

同样 ， 如 果 能 够 预测 客户 是 否 会 因为 不 同 的 原因 而 重复 呼叫 ， 那 么 座席 可 以 根据 呼 
叫 的 性 质 ， 为 客户 自助 解决 指点 一 些 电子 资源 。 比 方 说 ， 如 果 呼 叫 被 识别 为 网 速 连接 慢 
的 问题 ， 并 且 在 大 多 数 情 况 下 ， 网 速 慢 的 问题 呼叫 也 伴随 着 计 费 问题 呼叫 ， 则 座席 可 以 
教导 客户 关于 自助 资源 的 信息 让 客户 获得 额外 的 计 费 帮助 。 这 些 措施 能 够 进一步 减少 重 
复 呼叫 。 

可 以 采用 相同 的 普遍 的 测试 和 控制 方法 ， 评 估 机 器 学 习 模 型 的 有 效 性 和 座席 的 绩效 ， 


第 7 章 规范 性 科学 与 决策 “263。 


以 减少 客户 的 重复 呼叫 。 这 个 过 程 可 通过 选择 一 个 合适 的 客户 测试 组 和 控制 组 来 实现 ， 
稍 后 再 通过 对 照 研究 来 探究 实验 的 有 效 性 。 

5. 提高 首次 呼叫 解决 率 的 员工 培训 

提高 座席 的 技能 以 在 同一 个 呼叫 中 更 好 地 进行 处 理 ， 也 有 助 于 减少 重复 呼叫 。 员 工 
培训 是 一 项 昂贵 的 交易 ， 因 此 也 可 用 测试 和 控制 分 析 方法 进行 实验 。 

规范 性 分 析 是 一 个 迭代 和 详尽 的 步骤 ， 通 过 大 量 的 实验 改进 结果 。 在 业务 问题 的 情 
况 下 ， 并 不 总 是 只 选择 一 种 测试 和 控制 分 析 方 法 。 在 这 种 情况 下 ， 使 用 历史 模式 和 启发 
式 方法 来 总 结实 验 成 功 的 可 能 性 ， 并 将 实验 一 次 性 推广 到 所 有 受 影响 的 运营 中 。 

6. 将 结果 与 数据 驱动 和 启发 式 驱动 的 假设 联系 起 来 

在 决策 科学 中 ， 解 决 问题 的 过 程 是 一 个 持续 的 过 程 。 这 可 以 从 在 上 一 节 中 看 到 的 问 
题 体系 图 中 观察 到 。 每 一 个 较 小 的 问题 都 可 再 次 分 解 成 多 个 较 小 的 问题 ， 并 与 另外 一 系 
列 问 题 相 联系 。 在 每 一 步 中 ， 人 们 都 越 来 越 意 识 到 问题 的 性 质 。 即 逐渐 从 一 团 乱 麻 阶 段 
向 混沌 不 清 阶段 过 渡 。 越 是 清楚 地 意识 到 这 个 问题 ， 就 越 需 要 解决 这 个 问题 。 在 这 一 点 
上 ， 如 果 复 查 数据 驱动 的 假设 (DDH) 和 矩阵 和 启发 式 驱 动 的 假设 (HDH) 和 矩阵， 将 会 看 
到 所 有 维度 都 有 一 个 小 小 的 改进 。 也 许 能 够 提出 更 好 的 假设 ， 也 能 通过 更 细 化 的 方式 来 
对 数据 切片 和 切 块 。 从 数据 驱动 的 假设 检验 中 再 次 研究 结果 ， 可 以 更 透彻 地 解释 结果 ， 
总 而 言 之， 如果 现 在 就 去 解决 问题 ， 此 时 就 能 更 好 地 解决 问题 。 很 多 时 候 ， 人 们 能 够 清 
晰 地 看 到 迭代 解决 问题 的 诸多 益处 ， 因 此 在 整个 解决 问题 的 过 程 中 快速 地 进行 迭代 。 达 
代 之 后 ， 这 个 问题 的 解决 方案 肯定 获得 了 一 个 增 量 式 地 改进 。 

在 这 次 分 析 练 习 中 的 和 迭代， 最终 改进 了 结果 并 解决 了 这 个 问题 ， 从 而 促使 我 们 重新 
回顾 结果 ， 重 新 学 习 HDH 和 DDH。HDH 和 DDH 的 收敛 以 及 矩阵 的 复查 ， 是 决策 科学 
生命 周期 中 的 一 个 关键 点 。 在 重 温 解决 问题 的 过 程 中 ， 都 会 观察 到 所 有 重大 的 创新 和 突 
破 ; 此 例 中 , 经历 了 一 个 精通 解决 问题 框架 的 结构 和 简化 的 路 线 , 即 HDH 和 DDH ERE. 

假设 有 了 一 个 当前 用 例 的 问题 解决 框架 ， 类 似 于 在 前 面 章节 中 所 解决 的 用 例 中 设计 
的 框架 。 当 到 达 规 范 性 的 分 析 阶 段 时 ， 就 会 触及 许多 新 的 假设 和 较 小 的 问题 ， 比 一 开始 
就 会 遇 到 的 问题 还 要 多 得 多 。 将 这 些 结果 反馈 给 (问题 解决 ) 框架 ， 可 以 帮助 问题 更 好 地 
演变 。 在 行业 中 解决 每 一 个 问题 都 是 如 此 。 图 7.9 描述 了 经 过 不 同 阶 段 的 问题 流程 。 

从 图 7.9 可 知 ,在 解决 问题 的 迭代 之 后 通过 规范 性 分 析 , 会 复查 DDH 和 HDH (解析 
一 个 问题 ) ， 甚 至 找 出 一 个 新 问题 。 运 用 问题 解决 框架 对 整个 循环 进行 迭代 ， 可 以 帮助 
更 快 、 更 有 条 理 以 及 更 成 熟地 解决 问题 。 

在 这 个 过 程 中 发 现 一 个 新 问题 时 ， 这 个 问题 往往 与 根本 问题 有 关 。 可 能 是 由 当前 问 
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题 导致 的 一 个 小 问题 ， 也 可 能 是 一 个 完全 不 同 的 问题 ， 但 它 仍然 与 当前 的 问题 有 关 。 设 
计 问 题 的 体系 ， 即 一 个 相互 关联 的 问题 网 络 ， 又 会 是 一 个 新 的 问题 。 这 时 需要 了 解 其 造 
成 的 影响 和 优先 次 序 ， 以 识别 和 评估 新 发 现 的 问题 与 当前 问题 的 关联 。 在 某 些 情况 下 ， 
暂停 解决 当前 问题 并 转向 新 的 相关 问题 可 能 是 有 意义 的 ， 因 为 如 果 不 解 决 这 个 问题 ， 当 
前 问题 就 会 碰 到 障碍 。 下 面 就 来 简单 地 探究 问题 体系 中 问题 的 相互 关联 的 性 质 。 


一 团 乱 麻 混沌 不 清 。 清晰 明朗 


识别 一 个 新 问题 


识别 一 个 间 题 ; MC TR 


e 


复查 DDH # HDH 


图 79 
72 连接 问题 体系 中 的 各 个 点 


如 果 观 察 为 电信 巨头 用 例 设计 的 问题 体系 ， 就 能 看 到 早已 发 现 了 多 个 问题 。 有 一 些 
基本 上 是 可 能 在 HDH 头脑 风暴 时 遗漏 的 假设 。 另 外 ， 由 于 对 该 领域 的 预见 有 限 ， 可 能 
创建 DDH 时 遗漏 了 。 到 达 了 规范 性 分 析 阶 段 后 ， 则 会 完成 一 个 理想 完整 的 问题 迭代 。 到 
了 这 一 点 时 ， 将 更 好 地 加 强 对 问题 和 领域 的 理解 。 此 刻 可 以 利用 这 个 时 机 来 进一步 改进 
问题 ， 但 是 在 某 些 情 况 下 ， 也 许 会 发 现 一 些 与 正在 尝试 解决 的 问题 完全 不 同 的 新 问题 。 
以 下 问题 体系 用 于 所 举 电 信 业 务 的 用 例 ， 请 参阅 ， 如 图 7.10 所 示 。 

图 7.10 中 加 下 画 线 的 问题 实际 上 是 新 问题 。 员 工 培训 和 客户 教导 属于 小 问题 ， 可 以 
归 类 为 当前 问题 的 增强 ， 可 对 它们 复查 DDH 和 HDH。 然 而 ， 其 他 4 个 问题 是 与 当前 问 
题 有 关 的 新 问题 。 例 如 ， 改 善 网 上 自助 资源 是 一 个 完全 不 同 的 问题 ， 涉 及 处 理 网 站 、 安 


第 7 章 ”规范 性 科学 与 决策 * 265* 
卓 和 iPhone 应 用 程序 、 用 户 体验 和 设计 ， 并 且 了 解 客户 查询 路 径 和 网 站 美学 。 它 需要 运 


设计 思维 和 行为 科学 等 新 的 学 科 交 又， 研究 用 户 在 网 站 上 的 行为 等 。 解 决 这 个 问题 最 
终 会 对 降低 呼叫 量 产生 影响 ， 但 这 本 身 就 是 一 个 截然 不 同 的 问题 。 


~T 


4 推行 员工 培训 计划 以 更 好 地 提高 首次 呼叫 解决 率 
改进 IVR 操作 以 提高 呼叫 完成 率 
o 


对 客户 面临 的 所 有 常见 技术 问题 展开 即刻 修复 工作 
d 


Q 为 一 家 电信 巨头 呼叫 中 心 减少 呼 入 来 电量 


o 
设计 出 站 IVR 电子 邮件 活动 ， 为 客 在 实时 通话 中 教导 客户 以 避免 重复 呼叫 
常见 问题 提供 解决 方案 


图 7.10 


同样 地 ， 其 他 问题 节点 即 “ 解 决 技术 问题 ”更 多 的 是 网 络 和 硬件 问题 ， 设 计 出 站 IVR 
和 电子 邮件 活动 是 一 个 营销 问题 等 。 从 前 面 的 例子 可 以 清楚 地 看 到 ， 所 有 问题 之 间 相 互 
关联 是 真 真实 实地 存在 着 的 。 在 这 种 情况 下 面临 的 最 大 障碍 是 如 何 确定 问题 的 优先 级 。 
这 时 ， 已 经 知道 了 在 哪些 范围 内 可 进一步 改进 当前 问题 ， 以 及 解决 多 个 新 的 关联 问题 。 
在 这 种 情况 下 ， 团 队 要 暂停 下 来 ， 需 要 去 认真 思考 哪些 问题 应 优先 解决 。 在 这 里 ， 解 决 
所 有 这 些 问 题 都 是 十 分 重要 的 ， 但 是 也 许 不 可 能 同时 解决 所 有 这 些 问题 ， 那 么 该 从 哪里 
着 手 呢 ? 

在 这 种 情形 中 ， 需 要 具备 大 量 的 领域 知识 和 商业 意识 才能 做 出 决定 。 在 每 一 步 之 后 ， 
团队 都 会 针对 每 个 新 问题 进行 解决 ， 从 中 直接 受益 同时 也 找到 新 机 遇 。 切 勿 将 太 多 的 重 
点 放 在 加 强 当前 问题 上 ， 而 是 要 把 主要 重点 放 在 解决 影响 最 大 的 新 问题 上 。 参 考 所 举 的 
38], AST 4 个 新 问题 : 

口 解决 客户 经 常 遇 到 的 技术 问题 。 
O ”改进 IVR 操作 以 提高 呼叫 完成 率 。 
ü ”改善 在 线 资源 方便 客户 自助 解决 。 
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O ”设计 出 站 IVR 和 电子 邮件 运动 ， 解 决 频繁 的 客户 投诉 。 

这 个 列表 还 不 是 详尽 无 遗 的 ， 只 是 涵盖 了 问题 在 一 次 迭代 之 后 可 触及 的 较 高 层次 的 
领域 。 由 于 我 方 团队 业务 和 领域 知识 比较 有 限 ， 可 以 评估 和 优先 考虑 前 面 的 4 个 新 问题 。 
假设 马克 的 团队 有 10 位 决策 科学 家 ， 一 次 至 少 有 4 至 5 位 成 员 参与 一 个 项 目 ， 也 就 是 解 
决 一 个 问题 ， 这 样 就 能 确定 马克 的 团队 有 足够 资源 同时 解决 两 个 问题 。 此 刻 需要 考虑 优 
先 解决 哪些 问题 ， 以 免 造 成 僵局 。 假 设 选择 优先 级 最 高 的 改进 IVR 操作 ， 但 是 中 途 意识 
到 这 个 问题 对 之 前 确定 的 另 一 个 问题 具有 巨大 的 依赖 性 ， 那 么 就 会 陷入 僵局 ， 这 样 其 中 
一 个 团队 需要 停止 操作 ， 一 直到 该 依赖 关系 得 以 解决 。 

分 配 优先 权 是 一 项 艰巨 的 任务 ， 通 常 要 经 过 充分 的 讨论 和 分 析 后 才能 完成 。 对 于 前 
面 的 用 例 ， 可 以 说 最 重要 的 是 解决 基础 性 的 根本 问题 ， 即 网 络 中 断 、 网 速 慢 、 通 话 掉 线 
等 问题 。 一 旦 解决 了 根本 性 问题 ， 可 以 努力 改进 IVR 操作 ， 然 后 改善 在 线 资源 以 便 客户 
自助 解决 ， 最 后 设计 一 个 稳妥 的 出 站 活动 来 自动 解决 问题 。 对 优先 级 进行 分 配 主要 基于 
为 用 例 提 供 的 有 限 背景 信息 。 而 现实 生活 中 却 困难 重重 。 其 问题 体系 永远 不 会 像 本 书 起 
草 的 简化 版 本 那么 简单 。 

将 问题 体系 中 的 各 点 连接 起 来 ， 是 考虑 首先 要 解决 的 问题 和 增强 优先 级 的 一 种 技术 。 
企业 能 够 拥有 足够 的 资源 同时 解决 所 有 问题 ， 这 种 情况 会 是 比较 罕见 的 。 以 这 样 的 方式 
设计 出 的 问题 体系 ， 能 够 使 问题 的 关联 和 优先 级 一 目 了 然 ， 让 解决 问题 变 得 更 加 容易 。 
图 7.11 描述 了 一 个 简化 的 问题 体系 , 可 以 解释 相互 关联 的 问题 之 间 的 关联 级 别 和 优先 级 。 


改进 IVR 操作 以 提高 呼叫 完成 率 
b 


mb. ob 对 客户 面临 的 所 有 常见 技术 问题 展开 即刻 修复 工作 
X CE 


O 推行 员工 培训 计划 以 更 好 地 提高 首次 呼叫 解决 率 


问题 o 为 一 家 电信 巨头 呼叫 中 心 
问题 2@ JT 减少 呼 入 来 电量 
问题 3。 ~ 
b 


e- 
改善 在 线 资源 方便 客户 自助 解决 


o o 
设计 出 站 IVR/ 电 子 邮件 活动 ， 在 实时 通话 中 指导 客户 以 避免 重复 呼叫 
为 客户 常见 问题 提供 解决 方案 


图 7.11 
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正如 所 见 ， 将 各 点 连接 起 来 时 整个 问题 体系 是 非常 直观 的 。 边 的 权重 可 以 直观 地 显 
示 出 关联 强度 ， 而 图 7.11 绘 出 的 边 的 颜色 可 用 来 表示 问题 的 优先 级 一 一 红色 边 (图 中 用 
字母 a 表示 ) 优先 级 最 高 ， 蓝 色 边 优 先 级 最 低 图 中 用 字母 b 表示 ) 。 虚 边 表示 需要 加 
强 复查 DDH 和 HDH， 而 实 边 表 示 新 的 问题 。 使 用 这 种 简单 化 的 可 视 化 图 ， 可 以 描绘 出 
问题 体系 的 直观 视图 ， 以 便 在 连接 各 点 时 有 助 于 理解 。 


73 撰写 故事 一 了解 问 题 体系 中 相互 关联 的 问题 


解决 问题 的 过 程 十 分 漫长 且 不 断 反复 。 一 旦 设计 了 一 个 问题 体系 ， 就 能 很 清楚 地 知 
道 解决 这 个 问题 肯定 会 比 预期 的 时 间 要 长 得 多 。 这 个 过 程 本 质 上 是 迭代 的 ， 但 并 不 意味 
着 要 看 到 切切 实 实 的 结果 就 需要 一 定 的 时 间 。 对 至 今 为 止 所 获 结果 的 价值 以 及 设计 解决 
方案 路 线 图 时 所 预期 的 结果 进行 评估 变 得 越 来 越 重要 。 

故事 撰写 即 一 种 采用 清晰 明确 的 方式 对 结果 进行 归纳 表达 的 技术 ， 它 在 决策 科学 中 
举足轻重 。 事 实 上 ， 这 种 情况 在 任何 一 个 问题 中 都 会 存在 ， 但 是 在 这 里 当 对 问题 拥有 了 
整体 看 法 后 ， 就 知道 这 个 问题 在 不 断 地 演变 。 在 每 一 步 中 ， 故 事 撰写 变 得 越 来 越 重要 ， 
通过 解决 相互 关联 的 问题 ， 可 实现 所 要 传递 的 价值 以 及 即将 传递 的 价值 。 故 事 撰写 要 求 
按照 顺序 起 草 结果 ， 让 整个 故事 看 起 来 既 简单 又 直观 ， 并 且 可 供与 项 目 有 关 的 任何 利益 
相关 者 使 用 。 

在 每 个 里 程 碑 式 的 问题 上 都 标 上 人 金钱 的 价值 ， 通 过 纯粹 的 数字 展示 出 问题 的 影响 ， 
会 为 所 呈现 的 故事 增添 一 种 别具一格 的 风格 。 

下 面 就 该 电信 用 例 进行 举例 以 理解 这 一 点 。 目 前 ， 完 成 了 一 个 解决 问题 的 选 代 练习 ， 
并 且 遍 历 了 决策 科学 中 问题 解决 堆栈 的 各 个 方面 。 换 言 之 , 遍历 了 决策 科学 的 描述 性 + 控 
查 性 + 预测 性 + 规范 性 阶段 。 而 且 不 仅 草拟 了 一 个 问题 体系 的 版 本 ， 也 设计 了 一 个 问题 体 
系 的 简约 版 本 。 现 已 经 把 这 些 点 连接 起 来 ， 并 且 也 十 分 清楚 下 一 步 应 该 做 什么 。 这 时 需 
要 采用 一 种 方式 来 表达 发 现 和 结果 ， 即 能 够 给 下 一 阶段 的 执行 呈现 出 价值 并 提供 足够 的 
解决 措施 的 一 种 方式 。 而 马克 也 要 为 领导 团队 和 他 的 公司 提供 解决 方案 。 

O +s: 

在 下 面 草拟 的 故事 中 ， 已 忽略 了 解决 诸如 网 络 拥塞 和 掉 线 等 技术 问题 ， 因 为 这 些 行 
为 超出 了 客户 体验 团队 的 职责 范围 。 

接着 将 根据 一 些 假设 ， 在 所 举 的 用 例 和 解决 方案 路 线 图 中 冰 明 金钱 的 价值 和 机 会 价 
值 。 假 设 一 个 座席 的 酬劳 处 于 平均 水 平 ， 他 平均 处 理 一 个 电话 的 成 本 是 7 美元 。 目 前 一 
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个 月 约 有 100 万 个 电话 ， 每 年 约 有 1200 万 个 电话 。 因 此 ， 每 年 的 开支 约 为 8400 万 美元 。 

在 当前 的 情况 下 ， 呼 叫 量 环比 增长 8% 一 10% 一 一 团队 会 在 第 6 个 月 末 看 到 每 月 呼叫 
量 达到 150 万 ， 净 增 超过 200 万 个 电话 ; 也 就 是 说 ， 如 果 在 接 下 来 的 6 个 月 内 每 个 月 有 
100 万 个 电话 ， 那 么 总 呼叫 量 将 会 是 600 万 个 左右 。 然 而 ， 每 个 月 平均 增加 8% 一 10% 的 
呼叫 量 ， 总 共 约 为 820 万 个 电话 ， 而 不 是 600 万 个 。 因 此 ， 额 外 的 220 万 个 呼叫 将 导致 
运营 成 本 增加 1500 万 美元 〈 假 设 每 个 呼叫 的 成 本 为 7 美元 ) 。 我 们 的 直接 目标 是 减少 因 
呼叫 量 增 加 而 造成 的 损失 ， 并 改善 运营 开支 。 

此 刻 确定 了 一 些 需 要 改进 的 领域 ， 也 明确 了 解决 方案 路 线 图 的 下 一 步 工作 。 现 在 就 
要 用 当前 的 结果 将 所 能 捕捉 到 的 机 会 价值 罗列 出 来 ， 考 虑 如 何在 解决 方案 路 线 图 中 标示 
出 这 些 价值 。 比 如 未 来 6 个 月 的 总 呼叫 量 ， 即 820 万 个 呼叫 (最 坏 情 况 ) 。 由 于 重复 呼 
叫 率 的 增加 ， 主 要 呼叫 量 也 在 增加 。 可 以 看 到 总 呼叫 量 的 大 约 25% 是 来 自 客户 的 重复 呼 
"|, 即 820 万 个 的 25%, 即 约 200 万 个 的 呼叫 成 本 超过 了 1400 万 美元 的 运营 开支 。 因 此， 
即时 的 机 会 价值 就 是 减少 重复 呼叫 的 1400 万 美元 开支 。 


7.3.1 第 一 步 一 一 即时 措施 


为 此 ， 构 建 了 一 个 机 器 学 习 技术 ， 可 以 实时 预测 客户 是 否 会 在 接 下 来 的 48 小 时 内 重 
复 呼 叫 。 此 外 ， 将 能 够 预测 他 是 否 会 出 于 相同 的 原因 或 不 同 的 原因 重复 呼叫 。 借 助 这 样 
的 模型 ， 接 听 现 场 呼叫 的 座席 将 能 够 更 好 地 避免 重复 呼叫 。 假 设 可 以 用 这 种 方法 来 减少 大 
Z^] 60% 的 重复 呼叫 。 这 相当 于 200 万 个 呼叫 的 60% CHI 120 万 个 呼叫 ) ， 即 860 万 美元 。 


7.3.2 第 二 步 一 一 未 来 措施 


为 了 进一步 减少 收 到 的 呼叫 来 电 ， 团 队 计划 改进 IVR 呼叫 完成 率 。 让 越 来 越 多 的 呼 
叫 在 IVR 中 解决 ， 而 无 须 座席 接听 电话 。 随 着 对 IVR 进行 新 的 改进 ， 可 以 预计 整体 呼叫 
量 将 减少 约 25%。 因 此 ， 从 接 下 来 的 6 个 月 内 700 万 个 呼叫 中 (700 万 = 820 万 -120 万 = 
从 步骤 1 减少 的 重复 呼叫 ) ， 有 望 减少 约 175 万 个 呼叫 CHI 2590) 。 

同样 ， 通 过 更 长 期 的 计划 一 一 改善 在 线 资源 和 建立 出 站 活动 一 一 可 预计 呼叫 量 还 额 
外 减少 15%， 即 525 万 个 (700 万 -175 万 = 525 万 ) 的 15%， 相 当 于 约 80 万 个 呼叫 。 

总 而 言 之 ,现在 拥有 一 个 即时 的 机 会 价值 ， 可 将 呼叫 量 从 820 万 个 减少 到 700 万 个 ， 
实时 地 对 一 个 客户 重复 呼叫 的 倾向 进行 预测 ， 即 120 万 个 呼叫 = 860 万 美元 ”。 


O 此 处 应 为 840 万 美元 ， 即 120 万 个 呼叫 X7 美元 =840 万 。 一 一 译 者 注 
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随 着 未 来 计划 的 到 位 ， 预 期 将 会 获得 一 个 适中 的 结果 ， 团 队 可 以 抓 住 一 个 机 会 ， 通 
过 改进 IVR 操作 和 在 线 资源 为 客户 的 自助 服务 ， 在 即将 到 来 的 呼叫 峰值 上 至 少 减 少 175 
万 个 +80 万 个 的 呼叫 。 因此 ， 有 机 会 节省 175 万 +80 万 个 ~250 万 ?个 呼叫 x7 美元 =1800 
万 美元 。 清 晰 地 列 出 各 种 业务 的 有 益 之 处 之 后 ， 现 在 可 以 开始 讲述 故事 了 。 马 克 可 利用 
这 个 强大 的 用 例 和 相关 益处 ， 说 服 领导 团队 和 首席 执行 官 采取 这 个 解决 问题 的 方法 以 及 
实施 接 下 来 的 步骤 。 
整个 用 例 可 简化 为 一 个 简单 的 故事 ， 如 下 : 
客户 体验 团队 研究 了 过 去 几 个 月 中 越 来 越 多 的 客户 呼叫 量 ， 这 些 呼 叫 不 仅 增加 了 运 
营 开支 ， 也 影响 了 消费 者 体验 。 这 个 团队 分 析 了 造成 这 一 问题 的 各 种 原因 ， 了 解 到 高 呼 
叫 量 的 核心 原因 主要 是 重复 呼叫 率 的 上 升 。 该 团队 利用 各 种 预报 和 预测 性 技术 ， 并 研究 
预计 未 来 6 个 月 呼叫 量 将 每 月 增长 约 8% 一 10%。 由 于 呼叫 量 激增 ， 预 计 将 会 产生 额外 的 
220 万 个 呼叫 ， 造 成 增加 超过 1500 万 美元 的 运营 开支 。 

该 团队 积极 制定 了 即时 措施 ， 在 接 下 来 的 几 个 月 内 将 重复 呼叫 率 降低 约 60%， 可 将 
运营 开支 降低 860 万 美元 。 而 且 制 订 了 具体 计划 进一步 降低 运营 开支 至 1860 万 美元 ， 即 
通过 多 种 策略 如 改进 IVR 操作 和 在 线 资源 ， 让 客户 自助 服务 以 减少 呼叫 量 。 解 决 这 一 问 
题 的 路 线 图 不 仅 有 助 于 降低 预期 增长 的 运营 开支 ， 而 且 还 将 进一步 降低 成 本 ， 但 又 不 会 
影响 消费 者 体验 。 

可 通过 以 下 简单 的 流程 图 ( 见 图 7.12) 直观 地 说 明 这 个 故事 。 


利用 机 器 学 习 技术 去 
Q © odia 实时 预测 重复 呼叫 并 
采取 相应 措施 去 减少 
和 me 了 RE 二 s 


通过 减少 约 重复 呼叫 的 可 能 性 
B | nj, ATAMER AM 
5 OPERDUEX 0 


县 


© 未 来 措施 

该 团队 也 部 团 好 了 一 条 路 线 
| 图 ， 以 抓 住 机 会 进一步 减少 
来 电 呼叫 ， ATERS | 
T 


改进 IVR 操作 提高 呼 ” “改善 在 线 资源 帮助 客户 。 “IVR 出 站 活动 以 及 电子 
叫 完成 率 自助 服务 邮件 解决 常见 问题 


图 7.12 


O 此 处 实 为 255 万 。 作 者 在 原文 可 能 只 是 大 体 估计 。 一 一 译 者 注 
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这 个 故事 撰写 的 演练 会 帮助 马克 赢得 他 的 领导 团队 同意 ， 从 而 批准 通过 他 的 策略 。 
在 这 里 让 所 有 细节 都 变 得 既 简单 又 直观 ， 方 便 业 务 利益 相关 者 去 读 懂 这 个 故事 。 在 解决 
问题 过 程 中 每 遇 到 一 个 里 程 碑 之 后 ， 就 需要 执行 故事 撰写 练习 。 其 中 的 一 个 里 程 碑 可 以 
被 认为 是 解决 方案 堆栈 中 和 迭代 的 结束 ， 正 如 所 完成 的 用 例 一 样 。 在 撰写 好 的 故事 基础 上 ， 
需 进一步 审慎 思考 ， 从 设计 好 的 路 线 图 中 所 获得 的 诸多 益处 ， 是 否 对 执行 有 价值 或 者 是 
否 需 要 修改 路 线 图 。 
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解决 问题 的 最 后 一 步 就 是 实施 解决 方案 。 本 章 讨 论 了 按照 我 方 团队 的 计划 立即 推出 
的 实施 方案 ; 即 开发 出 一 种 解决 方案 ， 实 时 通知 座席 一 个 客户 是 否 会 在 接 下 来 的 48 小 时 
内 重复 呼叫 。 为 了 使 解决 方案 更 具 可 操作 性 ， 可 以 设计 一 个 关联 规则 表 ， 计 算 不 同 呼叫 
原因 (类别) 之 间 的 关联 。 当 座席 收 到 通知 ， 知 道 一 个 客户 将 在 接 下 来 的 48 小 时 内 因 不 
同 的 原因 重复 呼叫 时 ， 这 个 方案 将 派 上 用 场 。 座 席 可 利用 关联 规则 表 来 了 解 重复 呼叫 最 
可 能 的 原因 ， 采 取 额 外 步骤 减少 重复 呼叫 的 可 能 性 。 

在 完成 了 前 面 的 所 有 步骤 之 后 ， 实 施 解决 方案 就 需 遵 循 设计 的 步骤 ， 作 为 分 析 学 习 
之 旅 的 一 部 分 ， 换 言 之 ， 端 到 端 解决 一 个 商业 用 例 。 当 完成 一 个 端 到 端的 迭代 时 ， 遍 历 
决策 科学 生命 周期 的 所 有 阶段 。 在 和 欠 代 结束 时 ， 确 定 下 一 个 分 析 之 旅 的 路 线 图 也 就 是 
说 ， 实 施 当前 的 解决 方案 ， 同 时 准备 好 解决 这 个 问题 。 

反思 整个 分 析 ， 整 个 团队 对 现 有 的 清晰 思路 信心 满 满 ， 可 以 继续 往 下 分 析 。 而 且 也 
确切 知道 在 解决 什么 问题 ， 为 什么 要 解决 问题 ， 以 及 如 何 解决 问题 。 通 过 故事 撰写 练习 ， 
把 整个 分 析 制 定 成 最 简洁 的 格式 ， 可 供 每 个 业务 利益 相关 者 清晰 明了 地 使 用 。 这 样 ， 马 
克 的 解决 方案 会 从 公司 管理 层 处 获得 批准 ， 所 以 这 个 过 程 完成 了 第 一 部 分 ， 接 着 转 到 第 
二 部 分 ， 如 此 等 等 。 
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在 本 章 中 ， 对 解决 问题 的 最 后 阶段 〈 即 规范 性 分 析 ) 进行 了 探讨 。 本 章 从 电信 行业 
的 客户 体验 团队 借用 了 一 个 假设 的 用 例 。 为 了 解决 这 个 问题 ， 利 用 分 层 的 方法 解决 问题 ， 
并 通过 描述 性 的 、 探 查 性 的 和 预测 性 的 路 径 快速 遍历 。 接 着 ， 对 规范 性 分 析 一 探究 竟 ， 
学 习 如 何 利用 它 来 改进 结果 并 回答 这 两 个 问题 ， 那 么 会 发 生 什么 /现在 该 做 什么 ? 


第 7 章 ”规范 性 科学 与 决策 “271。 


为 了 掌握 决策 科学 中 的 决策 过 程 ， 本 章 研究 了 问题 在 现实 中 是 如 何 迭 代 的 ， 以 及 如 
何 通过 在 问题 解决 框架 中 复查 DDH A HDH 秆 了 泗 ， 更 好 地 解决 问题 。 进 一 步 探究 问题 在 
本 质 上 是 如 何 相互 关联 的 ， 还 有 如 何 通过 设计 问题 体系 并 连接 各 问题 点 ， 以 更 清楚 地 理 


解 问题 ， 从 而 可 以 研究 、 


捕捉 和 主动 解决 问题 的 演变 。 最 后 ， 研 究 如 何 自信 地 起 草 一 个 


直观 而 清晰 的 故事 ， 将 团队 的 发 现 和 下 一 步 措施 作为 解决 方案 路 线 图 的 一 部 分 呈现 出 来 ， 
以 解决 不 断 演变 又 相互 关联 的 问题 。 


因此 ， 到 目前 为 止 ， 


不 仅 探索 了 决策 科学 的 各 个 阶段 ， 还 学 会 了 如 何 使 用 多 种 用 例 


来 解决 物 联网 行业 的 问题 。 在 每 一 个 用 例 中 ， 探 讨 了 决策 科学 中 运用 各 种 不 同类 型 的 分 
析 技 术 一 一 描述 性 、 探 查 性 、 预 测 性 和 规范 性 的 技术 。 在 问题 通过 自己 的 生命 周期 ， 即 


从 一 团 乱 麻 到 混沌 不 清 有 


到 清晰 明朗 的 状态 往 前 演变 当中 ， 学 会 了 如 何 解 决 这 个 问题 。 


在 第 8 章 中 ， 本 书 打算 探寻 物 联网 行业 的 颠覆 性 创新 ， 并 将 简要 地 讨论 物 联网 是 如 
何在 雾 计 算 、 认 知 计算 和 其 他 几 个 领域 实现 一 场 革命 的 。 


第 8 章 物 联网 颠覆 性 创新 


随 着 物 联 网 模式 在 各 个 垂直 行业 的 日 益 渗透 ， 人 们 目睹 了 物 联 网 行业 内 发 生 的 巨大 
颠覆 性 创新 。 物 联网 的 价值 和 潜力 展现 无 遗 ， 而 且 成 功 案例 在 每 一 个 垂直 行业 比比 皆 是 。 
而 伴随 物 联网 的 出 现 ， 还 催生 了 人 工 智能 、 机 器 学 习 、 深 度 学 习 、 机 器 人 技术 、 基 因 组 
学 、 认 知 计算 、 雾 计算 、 边 缘 计算 、 智 能 工厂 以 及 不 计 其 数 的 其 他 颠覆 性 创新 。 当 人 们 
在 日 常生 活 中 利用 这 些 技术 创新 时 ， 也 直接 或 间接 地 从 这 些 颠 履 性 创新 中 获 益 。 随 着 时 
间 的 推移 ， 肯 定 会 更 好 地 将 这 些 规模 进一步 扩大 。 

资产 互联 和 运营 互联 已 经 成 为 现实 ， 而 人 们 也 将 看 到 物 联网 颠覆 性 创新 与 多 学 科 创 
新 的 相 汇 融合 。 仅 举 几 例 ， 比 如 数据 量 的 不 断 增加 促进 了 物 联网 深度 学 习 的 发 展 ， 边 缘 
计算 或 雾 计算 推动 了 最 先进 的 智能 资产 的 发 展 ， 而 人 类 思维 和 机 器 智能 的 结合 ， 颠 覆 了 
工业 和 医疗 保健 物 联 网 的 各 个 全 新 领域 。 人 们 目睹 了 十 年 前 在 电影 中 看 到 的 所 有 科 约 约 
想 而 今 已 梦想 成 真 。 在 本 章 中 ， 将 简略 地 了 解 由 于 其 他 学 科 的 创新 融合 而 造成 的 一 些 物 
联网 颠覆 性 创新 。 

本 章 简要 介绍 以 下 主题 ; 

D LARR RRE RR, 

认 知 计算 一 一 非 结构 化 数据 的 颠覆 性 智能 。 
下 一 代 机 器 人 和 基因 组 学 。 

自动 驾驶 汽车 。 

物 联网 生态 系统 中 的 隐私 和 安全 。 


口 口 口 口 


8.1 边缘 计算 / 雾 计 算 (Edge computing/Fog computing ) 


雾 计 算 的 话题 近年 来 引起 了 极 大 的 关注 。 这 个 概念 在 研究 和 实验 阶段 已 经 存在 有 相 
当 长 的 一 段 时 间 了 。 但 是 ， 随 着 近来 物 联网 的 发 展 ， 边 缘 计 算 从 “创新 触发 ”阶段 发 展 
到 “预期 膨胀 峰值 ”阶段 〈 这 里 指 的 是 Gartner 的 Hype cycle 模型 ") 。 边 缘 计算 的 概念 让 
人 惊讶 ， 因 此 思科 公司 深 受 启发 , 将 “ 雾 计算 ”这 个 术语 从 云 计 算 的 传统 架构 中 提取 出 来 。 
下 面 从 外 行人 的 角度 理解 雾 计算 的 概念 。 


O 由 著名 咨询 公司 Gartner 发 布 的 Hype cycle 模型 ， 包 含 了 Gartner 对 众多 行业 发 展 周期 的 预测 与 判断 。 一 一 译 者 注 
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边缘 计算 / 筋 计算 是 将 数据 、 应 用 程序 和 服务 的 计算 ， 从 中 央 的 云 推 到 网 络 的 逻辑 极 
限 〈 即 边缘 ) 的 一 种 架构 。 这 种 方法 需要 利用 也 许 不 能 连续 连接 到 网 络 的 资源 ， 如 笔记 
本 电脑 、 智 能 手机 、 平 板 电脑 、 家 用 电器 、 制 造 工业 机 器 、 传 感 器 等 。 边 缘 计 算 体系 结 


在 云 计算 架构 中 ， 中 央 服 务 器 负责 应 用 程序 或 设备 所 需 的 全 部 计算 。 但 是 ， 随 着 物 
联网 生态 系统 的 发 展 ， 遵 循 相同 的 原则 变 得 越 来 越 累 袭 腔 有 种 。 回 顾 第 1 章 “ 物 联网 和 决 
策 科 学 ”研究 的 物 联网 逻辑 堆栈 ， 它 指 的 是 物 联 网 生态 系统 可 以 逻辑 分 解 成 4 个 单元 组 
件 一 一 数据 、 物 、 人 和 流程 。 在 数据 维度 中 ， 人 们 意识 到 即使 互联 的 设备 正在 生成 海量 
数据 ， 但 大 部 分 数据 本 质 上 是 转瞬 即 逝 的 数据 ， 换 而 言 之 ， 数 据 在 生成 之 后 的 几 分 钟 内 
就 会 丧失 其 价值 。 因 此 ， 只 要 数据 一 产生 ， 就 对 数据 进行 处 理 并 从 中 提取 出 价值 ， 存 储 
以 满足 各 种 分 析 的 需求 ， 这 一 项 技术 是 一 门 完 全 不 同 的 学 科 。 

处 理 数据 并 从 中 提取 智能 信息 需要 将 计算 推送 到 本 地 节点 设备 。 这 些 设备 配备 了 最 
低 要 求 的 计算 能 力 和 数据 存储 设施 有 助 流程 的 进行 。 计 算 之 后 ， 只 有 既 丰 富 又 被 压缩 过 
的 且 可 重新 使 用 的 数据 才 会 传 回 云端 。 如 果 继 续 在 物 联网 生态 系统 中 利用 云 计 算 ， 那 么 
要 让 流程 依然 可 行 ， 扩 大 解决 方案 和 基础 设施 将 成 为 一 个 迫在眉睫 的 瓶颈 。 而 且 ， 随 着 
云 计 算 架 构 的 实现 ， 将 如 此 海量 的 数据 从 设备 向 云端 传输 ， 接 着 又 为 所 有 设备 处 理 和 提 
取 数 据 ， 这 种 操作 将 会 阻塞 网 络 ， 同 时 也 需要 庞大 的 存储 和 计算 资源 。 此 外 ， 数 据 量 预 
计 会 在 很 短 的 时 间 内 翻 倍 。 对 于 物 联 网 生态 系统 而 言 ， 云 计算 显然 不 是 一 个 十 分 可 行 的 
选择 ， 而 这 时 恰好 出 现 了 一 个 更 可 行 和 更 创新 的 解决 方案 的 概念 ， 而 这 个 概念 对 物 联网 
架构 极为 有 利 。 

随 着 雾 计算 的 出 现 ， 计 算 能 力 被 推 向 了 极限 逻辑 端点 ， 从 而 使 设备 在 一 定 程度 上 能 
自主 智能 决策 。 中 央 服 务 器 上 的 存储 和 计算 负载 减少 到 了 一 定量 ， 并 且 由 于 只 有 既 丰 富 又 
被 压缩 过 的 数据 被 发 送 到 服务 器 ， 通 信也 能 闪电 般 地 实现 ， 进 而 能 够 更 快 地 获得 结果 。 
随 着物 联 网 中 雾 计算 的 颠覆 性 创新 ， 人 们 亲眼 目睹 了 它们 引发 创新 的 各 种 各 样 的 新 事物 。 

图 8.1 展示 了 雾 计算 的 架构 。 

正如 所 看 到 的 ， 多 个 设备 聚集 在 一 起 ， 形 成 一 个 连接 到 单个 计算 节点 的 较 小 网 络 。 
在 某 些 情况 下 ， 将 单个 设备 分 配给 单个 计算 节点 而 不 是 集群 。 后 续 将 通过 一 个 假设 的 用 
例 详细 探 讨 雾 计算 模型 ， 同 时 了 解 物 联网 如 何 采 用 雾 计算 技术 来 提供 最 先进 的 智能 连接 
设备 。 但 是 ， 本 章 首先 学 习 一 个 非常 明确 的 例子 ， 以 巩固 雾 计算 基础 。 

假设 您 的 手机 装 有 一 个 健身 应 用 程序 ， 可 以 跟踪 您 每 天 所 消耗 的 卡路里 数 ， 并 且 每 
天 给 出 相应 的 报告 ， 告 诉 您 燃烧 了 多 少 卡路里 ， 同 时 提供 与 之 前 目标 和 历史 表现 相 比 的 
一 些 统计 数据 。 这 是 通过 计算 您 一 天 行走 的 步 数 来 实现 的 。 您 的 手机 配备 了 各 种 传感器 ， 
如 计 步 器 、 加 速 计 等 。 这 些 传感器 可 以 捕捉 手机 每 个 细微 运动 的 数据 ， 换 而 言 之 ， 在 微 


n 
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秒 级 ， 可 捕捉 到 手机 的 x 和 y 坐标 。 


边缘 计算 / 雾 计算 架构 


中 央 服 务 器 


图 8.1 


通过 在 x 和 y 坐标 序列 中 捕捉 一 个 模式 ， 可 以 研究 一 天 中 您 走 了 多 少 步 。 比 方 说 ， 
走路 时 手机 放 在 口袋 里 ， 那 么 坐标 有 轻微 的 提升 ， 而 x 轴 向 前 移动 。 来 自 手机 传感器 
的 坐标 数据 图 将 形成 一 个 模式 ， 以 检测 完整 的 步行 周期 。 采 用 这 些 模 式 就 能 计算 用 户 行 
走 的 步 数 。 图 8.2 很 好 地 展示 了 这 个 思路 。 


* 捕捉 每 微 秒 坐标 数据 : 每 10 秒 约 100 条 记录 
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如 果 这 时 尝试 从 简单 的 云 计 算 角 度 来 思考 ， 那 么 ， 这 个 过 程 本 来 就 是 从 计 步 器 收集 
整个 日 志 数据 ， 即 一 天 大 约 SOMB， 然 后 发 送 到 云 服务 器 。 接 着 ， 服 务 器 分 析 数 据 ， 检 测 
步 数 ， 应 用 某 些 业务 规则 将 其 转换 为 燃烧 的 卡路里 数 ， 再 将 结果 发 送 回 手机 。 如 果 有 大 
约 5 亿 个 用 户 ， 需 要 通过 网 络 发 送 到 云端 并 在 云端 进行 处 理 的 数据 量 ， 完 全 可 以 将 网 络 、 
计算 和 存储 资源 都 折腾 得 天 翻 地 覆 。 然 而 ， 如 果 使 用 雾 计算 架构 ， 则 可 用 手机 的 内 部 计 
算 能 力 和 存储 资源 来 计算 每 30 分 钟 活动 的 步 数 ， 并 且 丢 弃 细 粒 度 的 日 志 数 据 。 到 一 天 结 
束 时 ， 智 能 手机 上 的 应 用 程序 可 发 送 汇 总 后 的 用 户 行走 步 数 总 和 ， 其 大 小 约 为 1 KB。 

因此 ， 这 样 不 仅 可 以 减轻 中 央 服 务 器 的 负载 ， 而 且 可 以 有 效 利用 现 有 资源 ， 做 出 更 
加 智能 更 加 可 行 的 解决 方案 。 取 名 为 “ 雾 计算 ”， 感 觉 好 像 是 将 云 计算 延伸 到 了 边缘 ， 
犹如 地 球 上 真正 的 雾 一 样 。 

此 刻 已 清楚 明白 了 雾 计算 ， 下 面 就 来 研究 一 个 假设 的 用 例 ， 了 解 它 在 现实 生活 中 如 
何 运 作 ， 以 及 它 为 物 联网 生态 系统 带 来 的 一 些 益 处 。 雾 计算 除了 使 云 架 构 可 扩展 外 ， 还 
增加 了 诸多 益处 ， 例 如 革命 性 地 让 设备 连接 到 网 络 时 更 智能 。 人 们 一 直 松散 地 定义 “ 智 
能 设备 ”这 个 术语 。 概 而 言 之 ， 可 将 智能 设备 定义 为 一 种 可 以 自行 决定 改进 一 种 特定 结 
果 的 设备 。 例 如 ， 智 能 交流 电 根据 人 数 和 环境 条 件 调整 房间 的 温度 。 也 可 以 自行 关闭 运 
行 ， 节 省 能 源 消耗 。 这 些 基 本 上 是 由 设备 通过 学 习 一 些 事件 并 利用 历史 数据 自行 决定 的 。 
这 些 设备 即 可 称 为 智能 设备 。 

接 下 来 探讨 一 个 类 似 于 之 前 研究 过 的 制造 业 用 例 。 假 设 一 家 大 型 生产 公司 在 印度 设 
有 工厂 来 生产 洗涤 剂 。 可 以 假设 其 生产 过 程 与 第 3 章 “ 探 索性 决策 科学 在 物 联网 中 的 应 
用 内 容 和 原因 ”中 的 一 样 ， 也 是 一 个 包含 5 个 阶段 的 过 程 ， 即 在 每 个 阶段 投料 和 加 工 原 
料 ， 从 最 后 阶段 5 中 输出 最 终 产 品 。 在 每 个 阶段 都 有 不 同 的 机 器 用 于 原料 加 工 ， 例 如 一 
台大 型 工业 混合 机 ， 将 所 有 原料 混合 在 一 起 ， 或 者 一 台 加 热 器 ， 将 全 部 成 分 一 起 加 热 。 

例如 在 整个 生产 过 程 中 有 一 台 这 样 的 机 器 ， 比 如 一 台 混 合 机 〈 立 式 或 甲 式 混合 机 ) ， 
这 台 机 器 投放 了 不 同 原料 后 将 它们 混合 在 一 起 ， 生 产 出 最 终 混合 物 用 于 生产 过 程 。 混 合 
机 运行 时 是 通过 预 设 速 度 旋 转 滚 简 一 段 时间 来 混合 不 同 的 原料 。 这 人 台 机 器 运行 时 会 消耗 
一 定量 的 能 量 。 

如 果 令 这 台 设备 变 成 可 利用 物 联 网 生态 系统 的 “智能 混合 机 ” 呢 ? 

回顾 前 面 研究 过 的 生产 用 例 ， 我 们 明白 该 用 例 早 就 属于 一 个 物 联网 用 例 。〈 生 产 中 ) 
部 署 了 大 量 传感器 来 捕获 各 种 参数 的 数据 ， 然 后 发 送 到 服务 器 〈 云 ) 进行 进一步 分 析 。 
之 前 研究 过 如 何 利用 决策 科学 和 物 联网 ， 解 决 提 高 洗涤 剂 生产 质量 的 问题 。 下 面 稍微 深 
入 一 点 ， 让 这 个 生产 过 程 中 使 用 的 机 器 变 得 更 加 智能 。 

在 用 例 中 所 举例 的 混合 机 在 运行 时 会 消耗 很 大 的 功率 。 那 么 如 何 才能 提高 功率 消耗 
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的 效率 ? 
这 正 是 运用 雾 计 算 之 处 了 。 


之 前 ， 所 举例 的 物 联网 架构 ， 是 利用 云 来 存储 和 分 析 数 据 进行 决策 的 ， 但 是 为 了 使 
资产 /机 器 成 为 “智能 机 器 ”， 需 要 采用 雾 计算 架构 ， 也 就 是 增加 了 在 本 地 计算 实时 数据 
流 的 能 力 ， 并 从 历史 信息 中 学 习 ， 帮 助 机 器 做 出 决定 从 而 改进 结果 。 那 么 结果 会 是 什么 
W? 比如 一 个 雾 计 算 网 络 的 场景 ， 即 通过 利用 机 器 学 习 来 优化 机 器 的 功 耗 。 因 此 ， 机 器 


将 根据 当前 事件 集合 理解 采取 行动 来 改进 结果 ， 即 功 耗 。 图 8.3 为 混合 机 运行 的 可 视 化 


一 个 封闭 循环 的 边缘 计算 用 例 
为 一 个 资产 〈 即 混合 机 ) 改进 功 耗 效率 


ttt 
功率 


功 耗 =/ 运 行 参数 + 机 器 参数 + 投料 参数 + 环境 参数 等 ) 


图 8.3 


图 。 


正如 所 见 ， 混 合 机 接收 不 同 原料 (原料 1、 原 料 2 和 原料 3) 的 投料 用 于 生产 过 程 。 
然后 ， 混 合 机 通过 预 设 速度 在 有 限 的 一 段 时 间 内 旋转 滚 简 ， 混 合 原料 形成 固 结 的 混合 物 。 


功 耗 一 般 随 着 投放 量 、 运 行 时 间 、 机 器 运行 速度 等 的 增加 而 增加 。 这 里 格外 有 趣 的 章 


分 


是 ， 可 以 改进 机 器 的 功 耗 ， 把 所 能 想象 的 各 种 参数 放 进 一 个 函数 。 简 而 言 之 ， 可 以 开 


发 


一 种 可 预测 功 耗 的 机 器 学 习 模型 ， 该 模型 能 够 根据 运行 参数 〈 例 如 转 矩 、 振 动 、 滚 简 转 
速 、 机 器 温度 、 压 力 等 ) 、 机 器 参数 和 投料 参数 〈 如 质量 参数 和 数量 参数 ) ， 最 后 是 环 
境 条件 参 数 。 可 以 肯定 的 是 ， 对 于 所 举例 的 参数 ， 采 用 一 组 不 同 的 值 ， 其 相应 的 功率 消 


耗 模式 也 会 不 同 。 
构建 算法 如 下 : 
功 耗 -7 (运行 参数 + 机 器 参数 + 环境 条 件 + 原料 参数 ) 
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该 算法 可 通过 从 存储 在 云 中 的 历史 数据 学 习 进 行 开发 。 一 旦 构建 好 了 算法 ， 就 可 将 
其 部 署 到 能 够 实时 运行 的 边缘 网 络 ， 去 根据 学 习 做 出 决策 。 该 算法 被 用 于 创建 一 组 自我 
学 习 方 程 ， 然 后 用 这 些 方程 来 做 出 自我 决定 。 

这 种 自我 学 习 就 像 下 面 这 样 〈 一 种 简单 表达 式 ) : 

O 温度 介 于 xl x2 之 间 以 及 转 矩 >x3 和 ……， 则 功 耗 =y1= 最 佳 。 
Q 温度 > x4 和 ……， 则 功 耗 = y2 比 最 佳 值 高 30%。 
O 降温 至 xl 和 x2。 

机 器 基于 这 些 自 我 学 习 规 则 ， 通 过 增加 或 减少 设置 来 调整 运行 参数 ， 保 持 最 佳 功 耗 
模式 。 当 数据 被 发 送 到 云 时 ， 这 些 规则 和 学 习 时 不 时 更 新 一 下 ， 并 且 云 也 使 用 新 的 数据 
集 更 新 机 器 学 习 模型 。 一 旦 更 新 之 后 ， 这 个 学 习 模 型 就 会 被 推 回 到 边缘 ， 接 着 边缘 节点 
利用 更 新 过 后 的 模型 ， 去 更 新 规则 并 进一步 改进 结果 。 

今天 ， 可 以 在 大 多 数 个 人 计算 设备 (如 笔记 本 电脑 、 智 能 手机 、 智 能 手表 和 平板 电 
脑 ) 上 更 加 真实 地 看 到 雾 计算 。 最 常见 的 例子 是 Windows 10 重新 启动 计划 程序 。 自 动 下 
载 更 新 后 ， 系 统 会 研究 用 户 的 使 用 模式 ， 了 解 重新 启动 系统 和 安装 更 新 的 最 佳 时 间 。 而 
且 也 研究 用 户 通常 使 用 笔记 本 电脑 但 活动 最 少 的 时 间 ， 然 后 启动 智能 决定 以 重新 启动 并 
安装 更 新 。 在 制造 业 和 工程 行业 ， 物 联网 中 的 雾 计算 正在 慢 慢 回升 。 

因此 ， 利 用 边缘 计算 架构 ， 计 算 被 推送 到 边缘 节点 (网 络 的 逻辑 极限 ) ， 这 使 机 器 
能 够 感知 实时 数据 ， 采 取 即 时 行动 来 减轻 商业 损失 。 在 前 面 的 用 例 中 ， 提 高 功 耗 仅仅 是 
可 能 改进 的 结果 之 一 。 边 缘 计算 可 用 于 实时 进行 各 种 增强 ， 如 减轻 资产 故障 或 提高 成 品 
质量 。 例如， 有 一 条 已 知 规则 是 ， 如 果 温度 增加 到 xl 以 上 ， 振 动 增加 到 x2 以 上 ， 并 且 
机 器 在 这 个 状态 下 连续 运行 10 多 分 钟 ， 那 么 机 器 发 生 故 障 的 可 能 性 将 是 8096, 或 者 另 一 
条 规则 是 将 操作 (参数 ) 设置 为 最 佳 ， 以 将 原料 制 成 最 优质 的 成 品 。 根 据 这 些 规 则 ， 机 
器 会 自动 决定 改变 运行 环境 ， 以 避免 问题 发 生 或 改进 结果 的 质量 。 一 言 蔽 之 ， 将 计算 推 
向 边缘 的 同时 ， 也 将 智能 推 向 了 边缘 ， 从 而 使 设备 或 资产 能 够 做 出 自我 决定 ， 以 改进 结 
果 并 成 为 智能 设备 。 


82 ” 认 知 计算 一 一 非 结构 化 数据 的 颠覆 性 智能 


随 着 连接 性 、 计 算 和 技术 的 发 展演 变 ， 人 们 看 到 行业 内 不 断 涌现 出 了 诸多 颠覆 性 创 
新 。 物 联网 独特 的 魅力 让 它 一 直 成 为 众多 颠覆 性 创新 的 受益 者 。 近 来 人 们 也 目睹 了 物 联 
网 生态 系统 中 认 知 计算 的 发 展 和 演变 。 
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认 知 计算 可 以 被 定义 为 计算 的 第 三 个 时 代 ， 它 解决 了 复杂 性 和 不 确定 性 增加 的 问题 ， 
也 就 是 人 类 问题 。 为 了 解决 这 些 问题 ， 系 统 被 设计 成 模仿 人 类 解决 问题 的 方式 。 

所 以 ， 一 般 而 言 ， 人 类 是 如 何 学 习 的 ? 答案 就 是 : 人 类 从 经 验 中 学 习 。 人 们 在 任何 
时 候 都 会 从 世界 消费 信息 流 。 根 据 自己 的 经 验 ， 去 学 习 如 何 对 新 情况 做 出 反应 ， 还 教会 
自己 如 何 学 习 。 最 简单 的 证 据 即 是 ， 别 人 要 求 您 解决 您 以 前 未 曾 听 说 过 的 一 道 谜语 。 那 
么 您 如 何 去 解 决 它 ? 您 会 认真 思考 和 回忆 您 对 这 种 情况 的 理解 ， 分 析 可 以 采取 的 不 同 解 
决 路 径 ， 再 根据 某 个 因素 《〈 即 相信 该 解决 方案 是 最 好 的 ) ， 最 终 选 择 最 佳 的 一 个 路 径 。 
在 这 种 场景 下 ， 您 的 大 脑 会 继续 学 习 它 所 面临 的 新 问题 。 您 遇 到 的 问题 越 来 越 多 也 越 来 
越 多 样 化 ， 那 么 学 到 的 也 就 越 多 。 这 样 的 问题 被 称 为 人 类 问题 ， 因 为 解决 这 些 问题 时 面 
临 着 的 是 具有 极 高 复杂 性 、 异 常 不 清晰 以 及 极度 不 确定 性 的 情况 。 

人 们 从 来 没有 将 机 器 设计 成 解决 这 种 问题 的 机 器 。 设 计 的 每 台 机 器 都 将 解决 一 个 完 
全 清晰 的 具体 问题 。 例 如 ， 一 辆 汽车 只 能 用 于 由 一 个 司机 从 一 点 驾驶 到 另 一 点 。 它 永远 
不 能 决定 自己 的 路 线 〈 此 处 暂时 忽略 自动 驾驶 汽车 ) 。 
但 是 ， 今 天 可 以 采用 同样 的 人 类 方法 用 于 计算 机 ， 即 不 用 明确 地 编程 ， 设 计 计算 机 
让 其 自主 学 习 。 认 知 计算 因此 被 称 为 计算 的 第 三 个 时 代 。 第 一 个 时 代 主 要 有 制 表 机 器 ， 
比如 计算 器 ， 紧 跟着 的 是 第 二 个 时 代 ， 这 时 可 以 对 计算 机 编程 让 它 来 完成 一 个 具体 的 任 
务 。 最 后 ， 现 在 到 入 了 计算 的 第 三 个 时 代 ， 可 以 设计 计算 机 通过 自我 学 习 来 解决 问题 。 


82.4 ” 认 知 计算 是 如 何 工作 的 


设计 认 知 计算 需要 大 量 的 计算 能 力 。 在 传统 系统 中 ， 利 用 机 器 学 习 和 深度 学 习 技 术 
来 预测 一 条 回归 线 或 分 类 一 个 对 象 ， 是 一 个 十 分 具体 的 问题 。 在 一 定 程度 上 ， 需 要 界定 
问题 的 范围 ， 并 为 机 器 提供 足够 的 数据 来 学 习 预 测 。 而 且 ， 这 个 预测 仅 限于 所 界定 问题 
的 性 质 。 用 于 预测 公司 销售 额 的 算法 无 法 预测 癌症 患者 是 否 能 存活 。 

在 认 知 计算 中 ， 系 统 的 设计 是 通过 模仿 大 脑 的 工作 方式 来 学 习 人 脑 的 工作 。 大 脑 通 
过 5 种 感官 接收 大 量 的 信息 ， 并 学 习 如 何 对 不 同情 况 做 出 反应 。 比 如 ， 您 泡 茶 时 不 小 心 
摸 到 了 茶壶 ， 溪 着 了 手 。 下 一 次 您 会 自动 地 更 加 谨慎 ， 因 为 您 已 经 学 到 了 这 件 事 的 含义 。 
这 个 事件 可 能 是 全 新 的 ， 但 是 现在 已 经 深 深刻 在 您 的 脑海 里 了 。 即 使 以 后 遇 到 不 同 的 情 
况 ， 也 能 够 帮助 您 改进 以 做 出 不 同 的 反应 。 同 样 ， 计 算 机 也 收 到 大 量 的 结构 化 和 非 结 构 
化 数据 以 及 连续 不 断 的 事件 。 它 尝试 通过 从 一 个 简单 的 假设 开始 ， 然 后 使 用 它 所 访问 的 
数据 来 验证 假设 ， 以 发 现 洞 见 和 学 习 。 在 验证 假设 的 过 程 中 ， 可 能 会 碰 到 一 个 违反 直觉 
的 结果 ; 它 会 从 这 些 结果 中 学 习 ， 并 创建 一 个 自我 学 习 知识 库 。 这 样 的 系统 对 人 们 的 日 
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常 活动 越 来 越 有 利 。 认 知 计算 的 整个 过 程 可 简化 为 如 图 8.4 所 示 。 


结构 化 数据 和 非 
结构 化 数据 集合 


图 8.4 


从 一 个 简单 的 问题 开始 ， 这 个 问题 可 能 是 由 一 个 事件 触发 的 ， 换 言 之 ， 感 知 到 了 一 
些 新 事物 。 这 个 问题 被 分 解 成 一 个 简化 的 假设 ， 如 果 该 假设 已 经 被 学 习 过 ， 那 么 通过 利 
用 知识 库 将 这 些 行动 综合 和 表达 出 来 ， 然 后 得 出 一 个 结果 。 该 结果 可 以 是 一 组 行动 或 一 
种 信息 展示 。 然 而 ， 如 果 这 个 假设 在 历史 上 从 来 没有 被 学 习 或 验证 过 ， 那 么 系统 就 会 接 
触 大 量 的 结构 化 和 非 结构 化 数据 ， 用 以 验证 假设 并 找到 最 好 的 结果 。 之 后 再 将 这 些 知识 
储存 在 知识 库 中 ， 以 便 将 来 有 所 帮助 。 最 后 将 这 些 结果 综合 推理 起 来 ， 得 出 一 个 可 操作 
的 结果 。 如 果 这 个 结果 不 符合 人 们 的 预期 ， 则 会 传 回 知识 库 。 

为 了 进一步 巩固 前 面 的 理解 ， 可 用 一 个 日 常生 活用 例 来 帮助 理解 整个 认 知 计算 的 概 
念 。 参 考 图 8.4， 将 下 列 组 成 部 分 与 认 知 计算 示例 的 工作 原理 联系 起 来 。 

假设 有 一 天 ， 您 出 现 了 一 个 轻微 的 健康 问题 ， 比 如 胃 不 舒服 〈 问 题 )》。 您 试 着 去 弄 
清楚 如 何 才能 缓解 胃痛 。 此 刻 就 会 努力 回想 您 过 去 曾经 遇 到 过 类 似 的 疼痛 时 ， 医 生 给 您 
开 了 一 种 药 ， 这 种 药 在 药店 (知识 库 ) 里 很 容易 买 到 。 于 是 您 快速 前 往 药店 购买 药物 。 
吃 完 一 小 片 药 之 后 ， 您 小 睡 了 一 会 ， 让 自己 的 胃 慢 慢 恢复 〈 从 综合 推理 到 行动 ) 。 一 个 
小 时 过 去 了 ， 但 您 仍然 感觉 不 舒服 。 您 又 试 着 回忆 昨天 吃 晚饭 的 事情 ， 但 已 不 记得 有 没 
有 什么 异样 的 事情 发 生 。 此 时 您 也 开始 感觉 到 快要 呕吐 并 且 头 痛 欲 裂 (结果) 。 然 后 ， 
您 搜索 互联 网 想 要 对 这 种 情况 了 解 更 多 信息 ， 结 果 发 现 这 种 病毒 性 发 烧 现象 在 附近 蔓延 
迅速 (收集 非 结构 化 和 结构 化 数据 ) 。 这 时 您 知道 发 烧 是 由 于 突然 天 气 变化 造成 的 ， 而 
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且 您 附近 的 很 多 朋友 也 遭遇 同样 的 情况 。 后 来 您 去 看 医生 开 合适 的 药物 。 服 用 了 处 方药 
后 ， 过 一 会 儿 您 就 病 愈 了 。 现 在 您 明白 了 每 当天 气 (知识 库 ) 突变 时 ， 身 体 都 有 可 能 会 
出 现 头 痛 和 胃 不 舒服 。 


8.2.2 ” 认 知 计算 应 用 在 哪些 场景 


认 知 计算 的 应 用 有 望 在 物 联 网 生态 系统 中 得 到 广泛 采用 ， 例 如 消费 品 、 医 疗 保健 、 
制造 业 等 行业 垂直 领域 。 为 了 理解 这 些 认 知 计算 的 应 用 ， 举 一 个 非常 简单 的 例子 。 假 设 
您 是 一 位 专业 人 士 ， 专 门 使 用 物 联网 生态 系统 中 的 各 种 智能 互联 设备 。 下 面 给 例子 再 加 
多 一 点 科幻 色彩 ;假设 您 的 手机 装 有 Google Now 或 Apple Siri 等 应 用 程序 ， 可 以 根据 事 
件 与 您 通话 。 接 下 来 就 通过 一 个 故事 ， 讲 述 如 何在 物 联网 认 知 计算 中 体验 到 它 超 乎 想象 
的 价值 ， 稍 后 再 简单 了 解 它 的 工作 原理 。 
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清晨 您 起 床 梳洗 完毕 去 上 班 。 智 能 手表 会 通知 您 ， 一 周 的 运动 让 您 的 深度 睡眠 时 间 
增加 了 20%。 您 一 整 天 神 清 气 爽 ， 顺 利 完成 日 常 工作 ， 准 时 下 班 。 在 您 离开 家 门 时 ， 家 
的 电力 进入 省 电 模 式 。 而 当 您 坐 进 汽车 驾驶 室 时 ， 汽 车 仪表 板 上 的 屏幕 通知 您 常规 上 
班 路 线 拥堵 严重 ， 同 时 给 您 建议 一 条 替代 路 线 。 因 为 您 不 喜欢 交通 堵塞 ， 所 以 尽管 该 替 
代 路 线 更 远 但 却 选择 了 这 条 路 线 。 当 您 在 车 里 时 ， 这 部 车 知道 这 就 是 您 。 于 是 ， 这 部 车 
不 仅 将 车 载 空调 设置 为 您 喜欢 的 设置 ， 还 打开 您 偏好 的 新 闻 频 道 播报 当天 的 本 地 新 闻 ， 
同时 根据 您 的 喜好 自动 调整 座 椅 ， 播 放 您 最 喜爱 的 音乐 电台 的 歌曲 。 当 您 还 在 开车 途中 ， 
智能 手表 发 现 您 错过 了 今天 的 早餐 。 这 时 手机 定位 您 的 坐标 ， 给 您 建议 途中 吃 早餐 的 最 
佳 地 方 。 由 于 您 对 南 印 度 风味 的 早餐 一 直 偏爱 有 加 ， 它 不 仅 给 您 提出 建议 ， 也 给 您 列 出 
了 所 有 热门 的 南 印度 酒店 。 随 后 您 停车 走 进 酒店 点 餐 ， 手 机 即刻 会 提醒 您 ， 餐 厅 对 新 品 
菜肴 提 供 有 “星期 二 强劲 优惠 ”。 您 因而 点 了 新 菜品 大 快 人 条 颐 。 用 和 餐 后 结账 时 您 不 使 用 
现金 ; 手机 中 的 应 用 程序 会 自动 选择 最 佳 的 信用 卡 和 最 优惠 的 价格 ， 帮 助 结账 完成 交易 。 
您 到 达 办 公 室 后 开始 埋头 工作 。 因 为 只 需 办 公 半 天 ， 之 后 就 回 家 吃 午饭 ， 因 此 回 家 之 前 ， 
您 会 根据 (汽车 的 ) 建议 选择 另 一 条 新 的 路 线 ， 避 开交 通 拥堵 。 回 家 途中 ， 您 又 收 到 了 
通知 ， 告 诉 您 可 以 探索 哪些 让 人 惊奇 的 地 方 。 鉴 于 您 是 一 名 摄影 爱好 者 ， 因 此 手机 通知 
您 ， 有 一 个 非常 著名 和 无 比美 丽 的 教堂 就 在 您 路 过 的 途中 。 手 机 还 收集 了 许多 在 线 评论 ， 
告诉 您 那里 的 朋友 和 他 们 的 意见 。 您 觉得 十 分 有 趣 ， 所 以 就 在 教堂 处 停车 欣赏 风景 。 您 
对 这 个 地 方 的 美丽 惊叹 不 已 ， 于 是 用 手机 拍摄 这 些 漂亮 风景 作为 美好 回忆 。 当 您 终于 回 
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到 家 时 ， 会 发 现 当 您 不 在 家 的 时 候 ， 灯 和 空调 已 经 断 电 节省 了 电力 。 在 您 迈进 家 门 的 那 
一 刻 ， 所 有 的 家 电 ) 设 置 都 开启 了 ， 让 您 感觉 到 无 比 的 舒适 。 这 时 ， 您 十 分 剧 意 地 打 
开 电视 ， 一 边 享用 面条 一 边 观赏 足球 比赛 。 

这 样 的 生活 多 么 舒适 慨 意 啊 ， 对 吗 ? 


824 最 重要 的 问题 是 ， 所 有 这 些 是 如 何 发 生 的 


答案 很 简单 一 一 它 是 通过 自我 学 习 而 发 生 的 。 人 们 目睹 了 日 常生 活 中 无 数 的 创新 。 
如 果 您 使 用 的 是 安 卓 手 机 ， 就 会 注意 到 ， 它 可 以 理解 您 每 天 上 班 的 路 线 以 及 您 旅行 的 时 
间 。 通 过 对 交通 堵塞 和 GPS 数据 进行 扫描 ， 手 机 会 通知 您 可 以 采取 的 更 好 替代 路 线 。 手 
机 也 会 自动 读 取 电子 邮箱 中 的 机 票 ， 通 知 您 应 该 何 时 离开 准时 到 达 机 场 。 它 还 能 对 来 自 
网 络 和 其 他 来 源 的 大 量 信息 进行 扫描 分 析 ， 以 查 明 您 的 航班 是 否 延误 等 。 在 您 降落 目的 
地 时 ， 它 还 会 推荐 附近 最 好 的 酒店 、 天 气 预报 和 重要 的 旅游 景点 。 

此 时 稍微 暂停 ， 先 试 着 理解 在 科幻 故事 中 看 到 的 不 同事 物 是 如 何 发 生 的 。 今 天 ， 生 
活 在 一 个 相互 连接 的 世界 里 。 自 然 会 直接 或 间接 地 连接 到 许多 没有 意识 到 的 东西 。 人 们 
仅仅 依靠 智能 手机 就 足以 确定 身份 ， 并 且 能 够 预测 每 天 做 什么 。 我 们 对 数字 世界 的 依恋 
非常 深 切 ， 通 过 与 数字 世界 交互 所 捕获 的 数据 ， 就 能 轻而易举 地 研究 我 们 的 行为 。 接 下 
来 ， 本 章 一 步 一 步 地 去 探寻 认 知 计算 自身 是 如 何 对 不 同 的 创新 进行 解密 的 。 

您 的 智能 手机 /智能 手表 能 够 了 解 您 的 睡眠 方式 。 当 您 处 于 深度 睡眠 状态 时 ， 您 的 眼 
球 运动 、 身 体 的 运动 、 身 体 的 脉搏 ， 以 及 其 他 大 量 的 参数 ， 与 只 是 简单 地 躺 在 床上 相 比 ， 
都 会 有 很 大 的 不 同 。 智 能 手表 全 天 跟踪 您 的 行为 ， 智 能 手表 知道 您 是 在 深度 睡眠 还 是 仅 
仅 躺 在 床上 。 在 家 里 每 个 房间 安装 的 传感器 都 能 够 理解 一 个 人 的 存在 ， 并 且 通 过 智能 手 
机 /智能 手表 的 存在 ， 对 这 些 信息 进行 扫描 ， 它 知道 就 是 您 。 (这 是 因为 您 的 周期 性 移 
动 和 日 常任 务 显 示 出 一 个 模式 。 这 时 您 的 房子 已 经 非常 清楚 预计 您 何 时 会 出 门 去 了 。 您 
采取 同样 的 路 线 上 班 ， 比 如 在 高 速 公路 上 行驶 10 公里 。 智 能 手机 就 会 理解 您 每 天 都 以 相 
同 的 路 线 前 往 目 的 地 。 它 也 会 自动 理解 您 何 时 去 旅行 和 旅行 所 花 的 时 间 。 当 发 现 日 常 驾 
驶 路 线 交 通 繁忙 时 ， 它 会 主动 搜索 替代 路 线 ， 将 您 带 到 目的 地 。 您 的 汽车 也 能 知道 您 的 
存在 ， 并 且 还 研究 了 您 通常 为 车 载 空调 、 音 乐 系统 ， 座 椅 等 设置 的 调整 。 此 外 ， 汽 车 会 
自动 为 您 设置 ， 显 示 您 通常 在 手机 或 平板 电脑 上 浏览 的 收藏 集 内 的 最 新 消息 。 您 的 手机 
也 会 研究 您 在 早 午 晚餐 时 所 就 餐 的 地 方 和 餐厅。 因为 您 经 常 在 南 印 度 餐 馆 就 餐 ， 它 知道 
您 喜欢 南 印 度 餐 而 不 是 其 他 美食 。 在 您 旅行 时 ， 每 当 附近 出 现 很 受 欢迎 的 餐馆 ， 它 就 会 
通知 您 进行 选择 。 

这 个 过 程 很 简单 ， 认 知 计算 尝试 像 任何 人 一 样 学 习 。 您 每 星期 天 晚上 去 做 礼拜 ， 而 
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它 就 会 发 现 一 个 模式 ， 即 下 午 4 点 左右 您 离开 您 所 在 的 地 方 ， 并 在 每 个 星期 天 到 一 个 特 
定 的 位 置 。 下 一 次 如 果 时 间 匹 配 ， 它 会 通知 您 要 离开 住所 准时 到 达 目 的 地 的 最 佳 时 间 。 
它 学 习 到 一 个 让 它 备 感 有 趣 的 模式 。 因 此 它 试 图 运用 历史 数据 验证 假设 ， 并 了 解 结果 。 
如 果 下 次 找到 合适 的 场景 可 利用 这 些 学 习 , 它 会 使 用 所 学 到 的 知识 。 现 在 ,在 Siri A Google 
Now 等 智能 手机 上 的 语音 辅助 应 用 程序 ， 认 知 计算 已 经 与 这 些 应 用 深入 融合 。 您 越 多 地 
使 用 这 些 应 用 ， 它 们 就 越 能 有 效 地 帮助 您 。 


$3 下 一 代 机 器 人 和 基因 组 学 


由 于 物 联网 和 其 他 领域 的 发 展 ， 行 业 也 在 不 断 创新 ， 各 个 领域 都 通过 某 种 方式 感受 
到 新 的 增长 空间 。 随 着 物 联网 的 莲 勃 发 展 ， 人 们 发 现行 业内 的 边缘 计算 重新 崛起 。 边 缘 
计算 在 工业 物 联网 中 扮演 着 举足轻重 的 角色 ， 提 高 了 机 器 的 运行 效率 ， 也 增加 了 其 他 各 
种 优势 。 边 缘 计 算 不 仅 促进 了 工业 物 联网 的 创新 ， 而 且 巩 固 了 认 知 计算 的 基础 。 认 知 计 
算 解决 方案 因 采 用 边缘 简化 架构 而 得 到 发 展 ， 提 供 了 一 种 更 简单 且 无 障碍 的 维度 ， 帮 助 
机 器 人 行业 取得 显著 的 进步 。 


8.3.1 机 器 人 一 一 与 物 联网 、 机 器 学 习 、 边 缘 计算 和 认 知 计算 共享 光明 
未 来 


今天 借助 认 知 计算 、 机 器 学 习 、 边 缘 计 算 和 物 联 网 ， 人 们 已 经 把 机 器 人 行业 塑造 成 
具有 一 种 最 先进 的 技术 〔 的 行业 ) 。 机 器 人 被 广泛 应 用 于 制造 业 、 汽 车 业 和 其 他 行业 。 
人 们 看 到 了 机 器 人 和 自动 化 带 给 工业 领域 的 各 种 益处 ， 而 今 它 的 应 用 更 为 广泛 。 然 而 ， 
随 着 多 个 领域 的 融合 ， 人 们 发 现 技术 创新 在 不 同行 业 的 各 种 创新 中 进行 交叉 传播 。 借 助 
物 联网 、 机 器 学 习 、 边 缘 计算 等 诸多 领域 ， 机 器 人 技术 取得 显著 提高 。 智 能 工厂 的 概念 正 
在 变 成 现实 。 利 用 情景 感知 和 互联 系统 加 强 的 机 器 人 在 第 四 次 工业 革命 中 创造 出 了 奇迹 。 

下 面 简单 地 研究 物 联网 在 机 器 人 技术 中 是 如 何 发 挥 重 大 作用 的 。 

第 三 次 工业 革命 以 自动 化 为 核心 。 人 们 可 以 对 机 器 进行 编程 , 并 将 它们 设计 为 具有 4 
位 小 数 精度 的 精度 。 运 行 时 间 的 缩短 ， 资 源 利用 效率 的 提高 以 及 其 他 诸多 好 处 都 体现 在 
机 器 人 和 自动 化 方面 。 借 助 物 联网 ， 人 们 随时 处 于 互联 互通 世界 当中 。 当 今 的 机 器 早已 
能 够 意识 到 其 他 机 器 正在 发 生 的 事情 ， 并 且 “ 智 慧 地 ”自行 决定 改进 结果 。 机 器 人 自动 
化 可 以 通过 利用 业界 的 颠覆 性 创新 ， 将 “智能 ”功能 提升 了 一 个 水 平 。 

假设 您 负责 一 家 为 消费 者 生产 软饮料 的 工厂 的 运营 ， 比 如 可 口 可 乐 公司 。 工 厂 里 有 
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一 些 工 程 师 ， 他 们 是 将 整个 过 程 变 成 自动 化 的 专家 ， 使 用 计算 机 程序 专门 为 特定 的 机 器 
设计 和 编码 。 现 在 假设 您 有 新 的 饮料 〈 比 方 说 无 糖 可 乐 ) 进入 市 场 。 需 要 通过 修改 普通 
可 乐 的 程序 来 完成 建立 无 糖 可 乐 生产 线 。 必 须 增 加 一 些 改变 以 对 这 个 生产 过 程 做 出 改变 ， 
即 接受 新 成 分 、 新 预 设 量 以 及 操作 过 程 中 一 小 部 分 的 变化 。 尽 管 这 些 变化 很 小 ， 但 是 建 
立 端 到 端 自动 化 工厂 所 需 付 出 的 努力 却 是 无 比 巨大 的 。 所 有 的 机 器 /机 器 人 相互 关联 并 彼 
此 依赖 。 无 论 哪 一 处 有 微小 的 改变 都 需要 对 整个 过 程 做 出 大 量 修改 。 基 本 上 计算 机 工程 
师 都 要 进行 编码 ， 哪 怕 只 是 一 个 细小 的 变化 ， 也 要 编码 去 适应 每 一 个 新 的 变化 。 作 为 一 
种 改进 的 方式 ， 如 果 有 机 器 人 可 以 学 习 如 何 对 自己 的 小 增 量变 化 做 出 反应 呢 ? 利用 机 器 
学 习 ， 来 自 工 业 物 联网 生态 系统 的 大 量 数据 ， 再 加 上 认 知 计算 和 边缘 计算 ， 使 这 些 机 器 
人 的 智能 达到 了 全 新 的 水 平 。 

如 今 ， 机 器 人 技术 变 得 更 加 智能 化 ， 无 须 工程 师 编 写 指令 即 可 立即 适应 微小 的 变化 。 
它 理解 如 何 调整 流程 来 提高 运行 效率 和 生产 效率 。 它 知道 如 何 改变 日 常 操作 来 适应 新 的 
事件 。 已 经 没有 必要 人 为 干预 去 对 每 一 点 点 智能 进行 编码 。 机 器 人 非常 聪明 ， 可 以 自己 
学 习 。 在 农业 、 矿 业 等 领域 ， 机 器 人 对 商业 的 影响 也 可 见 一 斑 。 行 业 的 创新 使 得 机 器 人 
具有 成 本 效益 且 非 常 实惠 。 

截至 目前 ， 物 联网 中 的 消费 者 个 人 助理 机 器 人 是 人 们 亲眼 见 到 的 最 大 进步 。 在 很 多 
科幻 电影 中 看 到 过 类 似 的 机 器 人 并 且 也 对 它 喜 爱 有 加 。 还 记得 电影 《星际 穿越 》 中 的 机 
器 人 , 它 在 太空 旅行 期 间 一 直 在 帮助 库 珀 吗 ? 每 个 人 都 希望 有 一 个 机 器 人 可 供 自 己 使 用 。 
如 果 有 了 个 人 机 器 人 ， 它 可 以 帮助 处 理 个 人 事务 ， 日 常 活动 中 能 够 伸 出 援手 ， 而 且 如 果 
需要 ， 也 能 成 为 朋友 。 将 这 些 事情 变 为 现实 的 最 大 困难 在 于 ， 向 机 器 添加 背景 信息 时 所 
面临 的 挑战 。 如 果 人 们 需要 阁 明 日 常 工作 中 每 一 项 活动 的 整个 背景 ， 那 么 将 机 器 人 作为 
个 人 助手 使 用 会 变 得 越 来 越 麻烦 。 

假设 您 有 一 个 机 器 人 可 以 帮助 您 完成 一 些 个 人 事务 , 而 且 能 够 理解 和 回应 人 类 言语 。 
现在 给 这 个 机 器 人 起 名 为 “ 带 姆 ”。 晚 上 您 打算 在 家 里 为 朋友 组 织 一 个 派对 ， 此 刻 您 正 
忙 忙碌 碌 地 在 布置 安排 。 有 了 带 姆 这 个 小 帮手 之 后 ， 只 需 设想 一 下 这 个 情景 您 需要 带 
姆 帮助 在 网 上 订购 一 些 食物 和 饮料 。 为 了 让 蒂 姆 执行 这 个 任务 ， 您 得 对 它 下 命令 : "E 
姆 ， 请 从 某 网 站 订购 某 某 食物 和 饮料 ， 要 求 送 至 以 下 地 址 : 某国 某 州 某 地 区 第 5 十 字 路 
口 第 24 大 道 543 号 , 收 货 人 为 菜 菜 某 , 并 使 用 信用 卡 xxxx-xxxx-xxxx-xxxx 与 凭证 xxxxx 
等 。” 想 一 想 ， 须 为 每 个 任务 都 添加 如 此 这 般 的 详细 信息 。 倘 若 只 是 一 两 次 事情 还 能 
受 ， 但 是 事情 若 多 起 来 之 后 ， 想 要 接受 机 器 人 的 帮助 就 会 让 人 变 得 越 来 越 诅 丧 。 如 果 您 
遗漏 吟 只 一 些微 小 细节 呢 ?” 您 也 许 最 终 会 陷入 危险 之 中 。 另 外 试 着 想象 男 外 一 个 场景 ， 
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比如 您 不 得 不 请 带 姆 帮 您 京 饪 ， 那 么 完成 这 件 事情 又 是 一 项 无 比 艰巨 的 任务 。 

相反 ， 假 设 这 项 任务 就 像 告诉 带 姆 晚上 点 比萨 饼 和 可 乐 一 样 简单 。 带 姆 找到 了 您 最 
喜欢 的 比萨 的 最 佳 价格 ， 并 用 您 的 信用 卡 完成 最 优惠 的 交易 。 同 样 ， 如 果 您 需要 蒂 姆 的 
帮助 ， 只 需 告诉 他 要 为 5 个 人 做 一 顿 面食 ， 然 后 蒂 姆 就 来 完成 其 余 的 工作 。 如 果 没 有 足 
够 的 意大利 面 或 缺少 任何 配料 ， 带 姆 会 负责 订购 所 需 的 配料 和 训 饪 材料 。 一 旦 配料 备 齐 
了 ， 蒂 姆 就 参照 您 最 爱 网 站 的 亮 饪 指南 和 您 通常 喜欢 的 毫 饪 定制 菜谱 ， 去 完成 者 意大利 
面 的 工作 。 

机 器 人 的 这 种 非凡 的 自动 化 和 智能 ， 只 有 当 它 自己 学 会 了 理解 背景 信息 时 ， 才 有 可 
能 实现 。 人 们 可 以 利用 技术 行业 中 的 多 种 颠覆 性 创新 ， 比 如 物 联 网 捕获 您 使 用 的 每 个 连 
接 设 备 的 数据 ， 半 监督 算法 的 机 器 学 习 和 深度 学 习 从 历史 中 学 习 并 预测 未 来 ， 以 及 边缘 
计算 和 认 知 计算 利用 本 地 决策 能 力 和 背景 信息 来 构建 更 智慧 的 机 器 人 。 

机 器 人 智能 和 智慧 的 发 展 为 它们 的 使 用 开辟 了 全 新 的 视野 : 
现在 医生 利用 智能 机 器 人 来 协助 医疗 手术 。 
制造 业 变 得 更 加 灵活 多 变 ， 能 够 实时 适应 产品 增 量 变化 和 产品 增强 。 
餐馆 开始 使 用 机 器 人 ， 通 过 无 人 机 送 餐 上 门 ， 以 及 处 理 餐 馆 的 其 他 服务 。 
采矿 业 和 其 他 行业 中 的 重型 机 械 制 造 业 和 人 危及 生命 的 任务 ， 可 使 用 机 器 人 顺利 
完成 。 

Q 个 人 助理 机 器 人 〔 如 例子 中 的 带 姆 ) 即 将 成 为 现实 。 

D 能 源 、 石 油 和 天 然 气 以 及 类 似 行 业 加 大 了 对 机 器 人 技术 和 物 联网 的 应 用 。 预 计 
有 一 天 人 们 能 够 看 到 ， 全 自动 钻机 通过 卫星 坐标 滚动 到 作业 现场 ， 自 己 竖立 起 
14 层 高 的 钢筋 ， 钻 了 一 口 井 ， 然 后 收拾 好 后 再 去 到 下 一 个 作业 现场 。 

Q 昔 原 地 区 的 渔业 如 今 使 用 机 器 人 ， 可 以 轻松 地 在 恶劣 气候 条 件 下 工作 。 


8.3.2 ”基因 组 学 


D 


D DU 


基因 组 学 学 科 不 是 物 联网 产业 的 直接 受 惠 者 ， 但 是 通过 在 医疗 保健 物 联 网 中 利用 基 
因 组 学 ， 这 些 技术 的 交叉 融合 推动 了 这 一 过 程 的 发 展 。 基 因 组 学 是 一 门 广泛 的 学 科 ， 须 
具备 深厚 的 生物 学 背景 才能 进行 深入 的 研究 。 本 节 只 简略 地 讨论 这 个 主题 ， 了 解 物 联网 
如 何 促进 基因 组 学 的 发 展 ， 实 现 一 个 光明 而 健康 的 未 来 。 
基因 组 学 是 遗传 学 领域 内 涉及 生物 基因 组 测序 和 分 析 的 领域 。 基 因 组 指 的 是 在 一 个 
生物 体 的 一 个 细胞 内 包含 的 全 部 DNA 含量 。 基 因 组 学 专家 力求 确定 完整 的 DNA 序列 ， 
同时 进行 遗传 作 图 以 帮助 理解 疾病 。 研究 基因 组 数据 ( 即 DNA) 是 一 个 非常 广阔 的 领域 。 
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几乎 每 一 种 人 类 疾病 都 与 基因 有 着 重要 的 关系 。 长 期 以 来 ， 医 生 只 会 利用 遗传 学 来 研究 
出 生 缺 陷 和 其 他 一 些 疾 病 。 这 是 因为 研究 这 些 模式 是 相当 直接 的 ， 而 除了 研究 这 些 之 外 
进行 其 他 的 研究 都 是 不 可 想象 的 。 然 而 ， 今 天 这 些 惊 人 的 计算 和 处 理 能 力 ， 让 科学 家 和 
临床 医生 能 够 利用 强大 的 工具 ， 对 收集 到 的 海量 人 类 DNA 数据 进行 研究 ， 以 发 现 遗传 因 
素 和 环境 在 更 复杂 的 疾病 中 所 起 的 作用 。 


8.3.3 基因 组 学 与 物 联网 的 关系 


物 联 网 在 医疗 行业 做 出 了 很 多 贡献 ， 但 数字 化 在 医疗 保健 领域 的 渗透 ， 还 没 能 与 科 
技 行业 的 渗透 相提并论 。 大 多 数 研 究 人 员 和 医生 都 认为 ， 如 果 医 疗 保健 行业 克服 了 传统 
技术 ， 拥 抱 数字 世界 ， 那 么 在 “生物 物 联网 ”这 个 全 新 的 术语 下 ， 将 会 涌现 出 大 量 的 机 
会 。 今 天 ， 几 乎 还 没有 将 患者 病史 进行 数字 化 。 但 是 ， 如 果 一 切 都 变 成 了 数字 化 ， 医 生 
可 以 使 用 安全 和 专用 的 搜索 引擎 来 访问 ， 那 么 这 将 为 医疗 保健 行业 带 来 巨大 的 价值 。 有 
一 些 流程 精简 后 ， 将 未 来 医疗 记录 和 过 去 的 一 些 硬 拷贝 进行 数据 化 ， 但 这 有 其 自身 的 挑 
战 和 瓶颈 。 

只 有 在 此 处 基因 组 学 才能 够 被 充分 利用 。 由 美国 国家 人 类 基因 组 研究 所 (National 
Human Genome Research Institute) 在 美国 国立 卫生 研究 院 (National Institutes of Health, 
NIH) 领导 的 人 类 基因 组 计划 (Human Genome Project) ， 绘 制 了 一 个 非常 高 质量 的 人 类 
基因 组 序列 ， 人 们 可 以 从 公共 数据 库 中 免费 获得 。 而 且 ， 这 些 数据 是 完全 匿名 的 。 目 前 
这 样 的 基因 组 信息 的 研究 数据 库 不 计 其 数 。 大 多 数 的 数据 库 互 不 关联 ， 但 是 如 果 这 种 情 
况 属实 ， 这 就 会 产生 更 有 意义 的 结果 。 一 个 庞大 的 科学 家 联盟 正在 尝试 构建 一 些 工 具 ， 
以 使 这 些 存 储 库 可 以 互 操作 ， 这 本 身 就 是 一 个 极 具 挑战 性 的 任务 。 如 果 这 些 数据 库 不 仅 
彼此 连接 ， 还 与 智能 手机 和 智能 手表 中 的 其 他 匿名 信息 相关 联 ， 那 么 系统 中 的 每 个 信息 
都 将 具有 比 其 自身 更 高 的 价值 。 

然后 ， 医 疗 保健 行业 也 将 见证 这 些 创新 的 彻底 变革 。 医 生 会 更 准确 地 理解 人 们 所 患 
的 特定 疾病 的 原因 。 将 基因 组 数据 与 其 他 医疗 记录 结合 起 来 后 ， 可 用 来 研究 人 们 所 遗传 
的 疾病 。 进 一 步 的 分 析 可 用 来 开发 最 适合 人 们 所 患 疾病 的 治疗 药物 ， 实 际 上 是 通过 针对 
特定 基因 结构 的 各 种 药物 进行 实验 。 

而 且 ， 如 果 在 适当 的 安全 和 法 规 下 ， 对 这 些 丰 富 的 信息 加 以 研究 使 用 ， 可 以 帮助 人 
类 获得 世界 一 流 的 医疗 保健 服务 而 从 中 受益 。 开 发 药物 可 以 根据 基因 特征 等 对 一 组 人 群 
进行 定制 。 但 是 ， 这 也 带 来 了 自身 的 挑战 ， 安 全 和 隐私 会 成 为 一 个 最 大 的 障碍 。 后 面 将 
在 本 章 末 尾 将 讨论 更 多 有 关 隐 私 和 安全 的 内 容 。 
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84 自动 驾驶 汽车 


本 章 讨论 物 联网 颠覆 性 创新 的 最 后 一 个 主题 就 是 自动 驾驶 汽车 。 自 动 驾驶 汽车 在 技 
ie Sg mann 段 时 间 ， 但 尚未 达到 主流 生产 。 大 多 数 拥有 某 种 自动 驾驶 
功能 的 汽车 ， 只 局 限于 高 端 汽车 制造 商 的 旗舰 车 型 。 关 于 谷歌 自动 驾驶 汽车 的 消息 
发 布 也 小 有 一 anmi, GERA et 自动 驾驶 汽 
车 现 处 在 行业 创新 的 风口 浪 尖 合 了 物 联网 、 人 工 智能 、 机 器 学 习 、 认 知 计算 和 
eid < FUBSEDUR IS OR AUR OS 为 
了 理解 这 个 概念 ， 接 下 来 将 了 解 一 些 关 于 自动 驾驶 汽车 的 重要 信息 。 首 先 要 知晓 开发 自 
动 驾驶 汽车 的 愿景 和 灵感 。 也 会 对 现今 在 一 些 汽车 中 已 匹配 了 微型 自动 驾驶 功能 的 现象 
进行 探究 。 接 着 再 去 探寻 自动 驾驶 汽车 是 如 何 工 作 的 ， 以 及 如 何 利用 物 联网 生态 系统 和 
其 他 技术 的 颠覆 性 创新 。 最 后 探讨 自动 驾驶 汽车 将 如 何 改变 驾驶 的 未 来 。 


8.4.1 愿景 和 灵感 


大 多 数 人 认为 ， 自 动 驾驶 汽车 最 初 是 为 了 给 人 的 生活 带 来 更 加 轻松 舒适 的 体验 。 当 
然 ， 确 实 如 此 ， 但 这 依然 是 次 要 的 。 (事实 上 是 由 于 〉 出自 对 人 类 生命 的 关爱 ， 这 个 真 
实 的 愿景 才 触 发 了 人 们 尝试 去 构造 自动 驾驶 汽车 的 灵感 。 据 报道 ，〈 全 球 ) 每 天 大 约 有 
120 万 人 死亡 , 其 中 很 大 一 部 分 是 由 于 人 为 失误 造成 的 , 而 且 主要 是 车 祸 。 如 果 观 察 25— 
35 岁 人 群 死亡 的 最 大 原因 ， 可 以 看 到 最 大 的 原因 是 事故 。 人 非 圣贤 ， 熟 能 无 过 ， 所 以 确 
实 不 能 超越 某 个 点 去 做 任何 事情 。 无 论 法 律 有 多 么 严格 ， 开 车 时 人 们 都 不 可 避免 地 产生 
这 忽 大 意 和 肾上腺 素 冲 动 。 自 动 驾 驶 汽车 作为 一 个 项 目 ， 如 果 成 功 的话 ， 可 以 帮助 减少 
因 交 通 事故 造成 的 死亡 ， 从 而 挽救 更 多 的 生命 。 这 种 灵感 激发 了 许多 机 械 工程 公司 ， 甚 
至 像 谷歌 等 科技 公司 都 去 开发 自动 驾驶 汽车 。 今 天 ， 人 们 对 许多 公司 的 成 功 故事 耳 熟 能 
详 。 谷 歌 一 直 在 使 用 自动 驾驶 汽车 来 捕捉 谷歌 地 图 的 视觉 图 像 。 奥 迪 、 沃 尔 沃 以 及 最 近 
的 特 斯 拉 也 向 世人 展露 了 他 们 开发 自动 驾驶 汽车 的 能 力 。 尽 管 人 们 在 这 个 领域 取得 了 巨 
大 的 成 功 ， 但 大 规模 生产 和 全 行业 采用 仍 需 一 段 时 间 。 截 至 目前 ， 自 动 驾驶 仍 属于 高 端 
旗舰 车 的 一 项 豪华 功能 。 现 在 对 自动 驾驶 汽车 〈 即 自行 驾驶 汽车 ) 的 认识 已 清 清楚 楚 ， 
下 面 继续 研究 这 类 汽车 是 如 何 工 作 的 。 


8.4.2 自动 驾驶 汽车 的 工作 原理 


最 简单 的 假设 是 它 使 用 各 种 传感器 。 没 错 ， 干 真 万 确 ， 可 是 有 多 少 传感器 ? 这 些 传 
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感 器 是 如 何 工 作 的 ? 为 了 清晰 地 了 解 这 一 点 ， 只 需 参照 人 驾驶 汽车 的 情况 ， 


驾驶 时 需要 注意 的 事情 。 从 技术 上 讲 ， 第 一 个 也 是 最 重要 的 部 分 是 必须 看 到 


个 是 环境 ， 最 后 是 路 线 。 这 3 件 简单 的 事情 运用 技术 很 容易 实现 。 当 然 ， 当 


尝试 去 思考 
道路 ， 第 二 
人 驾驶 的 时 


候 ， 人 的 大 脑 感知 和 理解 的 方式 是 完全 不 同 的 ， 但 是 我 们 仍然 能 够 实现 其 中 的 一 大 部 分 。 
一 个 普通 的 自动 驾驶 汽车 有 几 个 传感器 或 声 纳 系统 ,全球 定 位 系统 (GPS ) 和 激光 成 


像 传感器 ， 即 汽车 项 部 的 激光 探测 及 测 距 系统 LIDARD (激光 雷达 ) 。 图 8.5 
驾驶 汽车 的 裸 车 版 本 。 


LIDARD 
激光 探测 及 测 距 系统 


图 8.5 


展示 了 自动 


接近 传感器 检测 附近 有 什么 物体 以 及 距离 它们 的 距离 ， 这 也 可 以 采用 强大 的 声 纳 系 
统 和 LIDAR 传感器 来 感 测 ， 即 通过 用 一 束 激光 照射 目标 来 测量 距离 的 传感器 ， 并 且 为 汽 
车 建立 一 个 3D 地 图 ， 了 解 其 即时 的 周围 环境 以 及 实时 地 理解 移动 对 象 的 速度 。 最 后 ， 
GPS 帮助 汽车 了 解 当前 所 在 位 置 和 需要 前 往 的 地 方 〈 路 线 ) 。 采 用 多 个 接近 传感器 的 组 
合 来 识别 附近 的 物体 ， 例 如 在 100 米内 〈 道 路 ) ，LIDAR 传感器 创建 一 个 3D 地 图 ， 理 


解 附近 物体 〈 环 境 ) 的 实时 速度 ， 最 后 GPS 导航 (路线 ) ， 这 辆 汽车 就 可 以 
动 驾驶 的 车 。 图 8.6 显示 了 使 用 激光 雷达 感 测 周围 环境 的 汽车 示例 图 像 。 


制 成 一 辆 自 
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84.33 是 否 遗 漏 了 什么 


事情 绝 非 如 所 阐明 的 那样 简单 。 执 行 这 个 过 程 中 会 遇 到 许多 挑战 。 首 先 ， 至 少 有 8 一 
10 个 近 距 传感器 可 以 连续 记录 周围 环境 的 数据 。 从 所 有 这 些 传感器 得 来 的 三 角 测量 信息 
和 对 汽车 周围 物体 位 置 的 研究 ， 都 需要 深入 的 分 析 和 应 用 复杂 的 算法 。 根 据 传感器 和 图 
像 数据 的 结果 来 控制 汽车 的 速度 、 制 动 系统 和 转向 并 不 是 一 套 简单 的 条 件 规则 。 它 需 用 
最 先进 的 算法 来 做 出 类 似 人 类 的 决策 。 一 些 汽车 利用 高 视觉 相机 来 感知 周围 的 环境 。 利 
用 先进 的 深度 学 习 技 术 从 汽车 的 实时 视觉 中 提取 特征 并 创建 视差 视觉 。 为 了 帮助 自动 驾 
驶 汽车 在 快速 转弯 时 进行 操作 ， 有 3 种 不 同类 型 的 通信 有 助 于 提高 自动 驾驶 汽车 的 智能 。 


8.4.4 车 辆 对 环境 
它 使 用 传感器 和 激光 成 像 工 具 来 了 解 周 围 的 环境 ， 以 及 因此 而 决定 自行 驾驶 。 
8.4.5 车 辆 对 车 辆 


一 旦 让 所 有 的 自动 驾驶 汽车 或 至 少 智能 汽车 上 路 时 ， 这 种 类 型 的 通信 会 成 为 可 能 共 
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通信 。 汽 车 可 以 发 出 关于 其 他 车 辆 周围 环境 信息 的 信号 ， 比 如 对 紧 随 其 后 的 汽车 。 这 些 
信号 对 于 自动 驾驶 汽车 至 关 重 要 ， 因 为 在 某 些 情况 下 ， 由 于 在 附近 存在 另 一 辆 汽车 ， 前 
方 视野 和 传 感 能 力 受到 限制 或 阻塞 。 在 这 种 情况 下 ， 可 以 利用 来 自前 方 车 辆 的 信号 更 准 
确 地 了 解 周围 环境 。 


8.4.6 ”车辆 对 基础 设施 


这 种 通信 方式 也 是 可 能 的 ， 但 只 有 在 拥有 智慧 城市 的 时 候 才 有 可 能 。 交 通信 号 、 道 
路 拥堵 和 实时 交通 更 新 的 相关 信息 ， 可 以 由 基础 设施 实时 传递 给 汽车 ， 以 便 在 自动 驾驶 
汽车 时 做 出 更 准确 的 决策 。 

现今 市 场 上 早 就 出 现 了 一 些 配 备 有 自动 驾驶 功能 的 汽车 。 奔 驰 、 宝 马 和 其 他 高 端 汽 
车 制造 商 增加 了 自动 停车 、 紧 急 制 动 、 车 道 校 正 等 自动 驾驶 汽车 的 一 些小 型 功能 。 设 计 
全 自动 驾驶 汽车 时 ， 也 采用 了 这 些 具有 更 多 智能 和 更 强 决 策 能 力 的 功能 。 


8.4.7 自动 驾驶 汽车 的 未 来 


谷歌 公司 一 直 是 向 世人 展示 全 自动 驾驶 汽车 的 《技术 ) 先锋 ， 而 今天 涉足 全 自动 多 
驶 汽车 业务 的 公司 也 为 数 不 少 。 虽 然 全 自动 驾驶 汽车 的 可 行 性 还 远 远 不 够 ， 但 是 未 来 确 
实 看 起 来 让 人 充满 希望 。 人 们 也 亲眼 看 见 了 自动 驾驶 汽车 实验 的 成 果 。 如 今 ( 这 种 技术 ) 
也 被 其 他 参与 者 越 来 越 多 地 采用 ， 而 且 也 获得 了 政府 和 监管 机 构 越 来 越 多 的 支持 ， 他 们 
都 致力 于 为 汽车 设计 标准 的 通信 通道 和 协议 以 利于 汽车 相互 通信 ， 而 建立 基础 设施 ， 大 
量 生 产 以 及 广泛 的 市 场 渗透 也 都 将 很 快 成 为 现实 。 

当 试 着 想象 自动 驾驶 汽车 的 未 来 时 ， 就 会 发 现 这 是 一 个 很 难 猜测 的 游戏 。 在 《我 ， 
机 器 人 》 C Robot) 等 科幻 电影 中 看 到 的 所 有 幻想 已 经 变 成 现实 。 人 们 早 就 目睹 了 数 家 
汽车 制造 商 最 先进 的 自动 驾驶 汽车 ， 那 么 未 来 还 可 以 期 待 什么 呢 ? 

答案 可 简单 归纳 为 一 句 话 : 更 好 地 与 人 的 互联 设备 集成 。 随 着 时 间 的 推移 ， 我 们 将 
见证 自动 驾驶 汽车 的 巨大 变化 ， 因 为 它们 的 认 知 更 加 成 熟 ， 更 能 够 与 我 们 的 数字 世界 深 
度 融 合 。 我 们 会 看 到 汽车 对 情绪 变化 的 回应 ， 根 据 情 绪 播 放 音 乐 ， 优 化 路 线 ， 节 省 燃料 
和 时 间 ， 事 故 发 生 率 将 降低 到 0%， 与 智慧 城市 基础 设施 深度 融合 ， 旅 行 速度 加 快 ， 在 拥 
堵 的 道路 上 进行 智能 协作 移动 等 。 
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8.5 物 联网 的 隐私 和 安全 


这 章 简要 地 研究 了 物 联网 的 颠覆 性 创新 ， 探 讨 了 物 联 网 如 何 开拓 了 各 个 创新 领域 。 
人 们 目睹 了 边缘 计算 、 认 知 计算 、 机 器 学 习 、 人 工 智能 和 其 他 颠覆 性 创新 ， 是 如 何 促进 
了 自动 驾驶 汽车 、 下 一 代 机 器 人 和 基因 组 学 等 新 领域 的 发 展 ， 但 是 却 遗 漏 了 研究 物 联网 
另 一 个 重要 方面 一 一 数据 的 隐私 和 安全 。 这 些 可 以 帮助 创造 奇迹 的 数据 的 详细 信息 ， 同 
时 也 会 带 来 巨大 的 安全 和 隐私 威胁 。 在 物 联网 中 ， 安 全 和 隐私 要 求 是 最 为 重要 的 。 在 物 
联网 生态 系统 中 丝毫 不 能 对 此 妥协 ， 这 样 才 能 对 人 类 的 利益 有 利 。 一 个 小 小 的 漏洞 足以 
给 大 型 企业 、 政 府 和 公民 个 人 造成 巨大 灾难 。 

公开 物 联网 系统 的 数据 会 使 系统 变 得 脆弱 无 比 ， 极 其 容易 给 人 类 带 来 灾难 。 用 户 的 
医疗 数据 和 数字 数据 都 是 非常 敏感 和 机 密 的 ， 未 经 他 人 同意 ， 决 不 能 被 其 他 人 利用 。 汇 
露 这 些 机 密 数 据 所 带 来 的 风险 ， 可 能 会 给 个 人 和 整个 人 类 造成 巨大 的 灾难 。 以 下 是 一 些 
物 联网 咀 待 解决 的 关键 挑战 。 


8.5.1 漏洞 


只 要 有 数 百 万 台 设 备 连接 到 了 物 联网 网 络 ， 就 会 有 数 十 亿 的 漏洞 暴露 。 配 备 各 种 伟 
感 器 的 设备 通过 网 关 将 数据 发 送 到 基础 设施 。 这 些 数据 流 中 的 每 一 个 数据 流 在 保密 性 上 
都 异常 脆弱 。 暴 露 这 样 细 粒 度 的 数据 可 能 会 给 不 同 的 企业 带 来 巨大 的 安全 性 问题 。 在 一 
些 行业 中 ， 这 种 信息 泄漏 可 能 会 危及 整个 企业 。 

诸如 用 于 认证 的 指纹 数据 ， 所 有 在 线 网 站 的 密码 ， 网 上 银行 证 书 等 极其 机 密 数 据 汇 
露 的 风险 ， 可 能 会 给 消费 者 造成 巨大 的 经 济 损失 。 即 使 是 像 访问 手机 的 动作 数据 等 小 漏 
洞 ， 也 可 以 被 黑客 锚 听 以 检测 用 户 输入 的 内 容 ， 然 后 利用 这 些 漏洞 研究 用 户 输入 的 密码 
和 信用 卡 信息 。 


85.2 完整 性 


物 联网 基础 设施 会 持续 不 断 地 从 安装 在 大 量 设 备 中 的 不 同 传感器 接收 高 速 实 时 数据 
流 。 那 么 系统 如 何 确定 数据 的 完整 性 ? 数据 泄漏 导致 误导 推断 结果 的 可 能 性 有 多 大 ? 假 
设 在 第 6 章 所 研究 的 用 例 中 ， 太 阳 能 电池 板 数据 和 能 量 消 耗 模式 已 经 受到 影响 。 最 终 客 
户 将 无 法 看 到 该 场所 正在 发 生 的 事情 ， 并 且 也 误导 了 他 们 对 第 二 天 日 出 前 太阳 能 发 电量 
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可 持续 性 的 判断 。 此 外 ， 也 会 因为 太阳 能 发 电量 的 数据 不 切实 际 ， 从 而 造成 消费 者 为 错 
误 的 账单 支付 了 不 必要 的 费用 。 这 样 只 会 给 企业 造成 破坏 性 的 影响 ， 而 不 是 给 他 们 增加 
额外 的 收入 。 

对 于 作为 物 联网 生态 系统 一 部 分 的 消费 电子 设备 ， 黑 客 可 以 在 发 送 消息 之 前 访问 消 
息 并 进行 算 改 。 在 大 型 企业 中 有 不 少 案例 ， 有 一 些 黑客 侵入 安全 层 ， 假 冒 领导 团队 的 身 
份 给 多 个 利益 相关 者 发 送 欺 诈 电子 邮件 ， 对 业务 造成 了 极 大 的 危害 。 


8.5.8 隐私 


随 着 物 联网 在 消费 领域 和 工业 领域 的 日 益 普及 ， 保 护 消费 者 和 企业 的 隐私 变 得 极 具 
挑战 性 。 随 着 设备 之 间 连 接 的 增加 和 平滑 的 数据 传输 ， 确 保 私人 信息 和 机 密 信息 不 落 入 
坏人 手中 变 得 越 来 越 困 难 。 如 果 有 人 非法 访问 您 的 智能 手机 ， 会 造成 您 的 私人 信息 〔 如 
电子 邮件 、 照 片 、 短 信和 通话 记录 ) 未 经 您 的 许可 就 泄漏 于 众 ， 任 人 浏览 。 在 个 人 私有 
文本 和 照片 被 泄露 时 ， 人 所 感受 到 的 那 种 感觉 ， 就 和 一 家 企业 对 任何 未 经 授权 的 人 非法 
访问 其 私有 信息 和 机 密 信息 时 ， 所 感受 到 的 那 种 感觉 同 出 一 略 。 

为 了 应 对 这 些 挑战 ， 必 须 设计 强大 和 安全 的 系统 ， 以 减轻 物 联网 生态 系统 中 与 安全 
和 隐私 相关 的 风险 。 以 下 是 需要 研究 解决 此 类 问题 的 一 些 领域 ， 但 是 还 没有 详尽 无 遗 地 
一 一 列 出 来 。 有 3 个 主要 领域 可 以 将 安全 性 作为 一 个 维度 添加 进去 。 


85.4 软件 基础 设施 


软件 基础 设施 包括 物 联网 设备 上 的 云 网 络 、 边 缘 网 络 和 操作 系统 。 软 件 基础 设施 的 
一 部 分 在 安全 性 方面 已 经 成 熟 ， 但 是 边缘 操作 系统 和 物 联网 操作 系统 都 是 相当 新 的 。 若 
要 让 软件 基础 设施 新 成 员 的 安全 意识 和 实践 到 达 高 峰 ， 还 需要 相当 长 的 时 间 。 现 在 的 主 
要 改进 着 重 集中 在 设备 认证 、 严 格 的 访问 和 资源 控制 系统 ， 以 及 数据 加 密 等 方面 以 提高 
安全 性 。 


8.5.5 硬件 基础 设施 


硬件 基础 架构 包括 连接 到 网 络 的 传感器 和 设备 。 可 信 计 算 Ctrusted computing) 在 解 
决 硬件 设备 挑战 中 起 着 举足轻重 的 作用 。 在 可 信 计 算 中 ， 计 算 机 将 始终 以 预期 的 方式 运 
行 ， 并 且 这 种 行为 将 由 计算 机 硬件 和 软件 执行 。 通 过 设计 具有 唯一 的 加 密 密 钥 的 设备 ， 
让 系统 的 其 余部 分 无 法 访问 ， 从 而 实现 对 这 些 设 备 的 仔细 检查 和 强制 行为 。 


38 8 — 物 联网 颠覆 性 创新 “293。 


8.5.6 协议 基础 结构 


为 了 安全 和 隐私 的 考虑 ， 生 态 系统 中 需要 解决 的 最 后 一 个 问题 就 是 协议 基础 设施 。 
互联 设备 之 间 的 通信 和 数据 传输 通过 协议 进行 调节 和 控制 。 这 一 层 的 任何 漏洞 或 后 门 都 
可 能 暴露 出 可 供 黑客 攻击 的 一 亿 种 手段 。 如 今 不 计 其 数 的 企业 都 在 开放 思想 ， 以 构建 一 
个 更 安全 的 物 联 网 通信 协议 。 


8.6 小 结 


在 本 章 中 研究 了 物 联网 的 颠覆 性 创新 。 深 入 探究 物 联网 的 发 展 是 如 何在 不 同 领域 中 
兴起 了 各 种 创新 的 ， 以 及 其 他 领域 又 是 如 何 直接 或 间接 地 利用 物 联网 来 引发 市 场 的 颠覆 
性 创新 的 。 同 时 探索 了 雾 计算 或 边缘 计算 模型 ， 知 道 在 保持 物 联 网 基础 设施 的 可 行 解决 
方案 时 ， 应 该 如 何 有 效 地 扩展 物 联 网 基础 设施 。 为 了 详细 研究 雾 计算 模型 ， 探 索 了 一 个 
类 似 于 之 前 研究 的 生产 用 例 中 的 假设 用 例 。 观 察 学 习 如 何 才能 将 互联 设备 或 互联 资产 设 
计 成 最 先进 的 智能 设备 ， 将 智能 推 向 网 络 的 逻辑 极限 ， 促 进 快速 和 智能 的 自我 决策 ， 从 
而 改进 结果 。 

此 外 ， 探 讨 认 知 计算 ， 从 人 工 智能 、 物 联网 和 边缘 计算 的 融合 中 ， 出 现 了 一 个 相当 
之 新 但 又 非常 有 前 景 、 极 其 有 趣 的 领域 。 从 中 看 到 如 何 设计 机 器 让 它 进 行 自我 学 习 ， 解 
决 一 个 不 确定 、 模 糊 不 清和 复杂 的 类 似 人 类 的 问题 。 而 且 ， 假 设 了 一 个 简单 的 科幻 故事 
(现在 已 几乎 成 为 现实 ) ， 研 究 如 何 利用 认 知 计算 来 让 人 们 的 生活 变 得 更 加 舒适 且 富有 
成 效 。 

随 之 ， 进 一 步 深入 到 从 物 联网 颠覆 性 创新 ;研究 了 如 何 利用 物 联 网 、 人 工 智能 、 雾 
计算 和 认 知 计算 来 开发 下 一 代 机 器 人 技术 。 同 时 还 简要 了 解 这 些 年 来 机 器 人 技术 是 如 何 
发 展演 变 的 ， 以 及 物 联 网 如 何 促进 了 机 器 人 技术 在 行业 内 变 得 日 臻 成熟， 从 而 激发 创新 。 
其 间 还 学 习 了 一 个 小 例子 ， 采 用 可 口 可 乐 生产 工厂 的 用 例 ， 了 解 机 器 人 如 何 能 够 充分 利 
用 物 联网 的 优势 并 提供 智能 解决 方案 。 此 外 ， 扼 要 介绍 了 基因 组 学 ， 并 且 从 较 高 层次 上 
研究 物 联网 和 基因 组 学 ， 让 人 们 明白 了 这 两 者 是 如 何 结合 一 起 为 医疗 行业 带 来 奇迹 的 。 

而 后 ， 仔 细 探 讨 了 自动 驾驶 汽车 的 概念 ， 深 度 挖掘 自动 驾驶 汽车 概念 的 形成 ， 并 且 
研究 自动 驾驶 汽车 的 设计 原理 。 不 仅 如 此 ， 还 探究 产业 各 个 不 同 支柱 与 物 联网 以 及 新 的 
颠覆 性 创新 ， 是 如 何在 短 时 间 内 融合 ， 甚 至 出 现 新 的 颠覆 性 创新 的 。 与 此 同时 ， 研 究 自 
动 驾驶 汽车 如 何 充分 利用 物 联网 的 力量 ， 汽 车 行业 的 优势 ， 以 及 人 工 智能 和 认 知 计算 的 
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智能 ， 再 加 上 雾 计算 的 功能 ， 将 令 人 难以 置信 的 自动 驾驶 汽车 变 成 现实 。 最 后 ， 除 了 诸 


多 显而易见 的 益处 以 外 ， 也 探讨 隐私 和 安全 的 问题 ， 了 解 它 们 是 如 何 为 黑客 提供 了 更 多 
的 选择 ， 致 使 他 们 能 够 利用 系统 漏洞 破坏 创新 。 十 分 清楚 建立 一 个 强大 而 安全 的 生态 系 
统 的 重要 性 ， 希 望 能 够 帮助 物 联网 蓬勃 发 展 、 创 新 并 创造 更 新 的 行业 颠 履 性 创新 ， 让 人 


类 的 生活 更 加 安全 ， 日 益 舒 适 和 富有 成 效 。 


在 第 9 章 中 ， 将 讨论 物 联 网 如 何 创新 和 颠覆 这 个 行业 ， 为 美好 未 来 黄 定 基础 。 并 将 


研究 物 联网 业已 打开 的 全 新 商业 模式 ， 以 及 了 解 人 们 在 日 常生 活 中 将 如 何 见 订 


FE 这 些 革 命 


性 的 转变 。 
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本 书 不 仅 研 究 了 物 联 网 和 决策 科学 的 各 个 方面 ， 也 通过 解决 多 个 用 例 从 根本 上 巩固 
了 我 们 的 物 联 网 思想 。 在 前 面 的 章节 中 ， 探 讨 了 物 联网 引起 的 行业 颠覆 性 创新 ， 并 且 探 
究 物 联网 在 其 中 是 如 何 扮演 重要 角色 的 ， 与 此 同时 又 是 如 何 催生 了 更 多 颠覆 性 创新 的 。 
在 本 章 中 ， 将 讨论 物 联网 如 何 为 人 类 带 来 美好 的 未 来 ， 将 重点 强调 物 联 网 智能 决策 的 重 
要 性 和 影响 ， 展 现 由 物 联 网 引发 的 光明 前 景 。 首 先 研究 一 个 格外 重要 的 商业 模式 ， 它 是 
随 着 物 联 网 的 兴起 而 在 行业 中 出 现 的 ， 这 个 商业 模式 即 资产 即 服 务 (Asset as a Service) 
或 设备 即 服务 (Device as a Service) 。 资 产 模式 和 设备 模式 组 合 在 一 起 就 覆盖 了 消费 领 
域 和 工业 领域 ， 可 为 客户 提供 经 济 高 效 的 解决 方案 ， 同 时 也 为 企业 带 来 更 高 的 收入 。 

这 一 章 还 将 通过 对 智能 手表 、 智 能 医疗 和 智能 汽车 的 演变 进行 详细 研究 ， 简 要 地 探 
明 物 联网 如 何 精心 打造 一 个 光明 未 来 。 不 仅 扼 要 讨论 智能 手表 将 如 何在 医疗 保健 行业 中 
扮演 重要 角色 ， 也 研究 汽车 互联 向 智能 汽车 ， 以 及 人 类 互联 向 智能 人 类 的 演变 过 程 。 在 
本 章 以 及 本 书 的 末尾 ， 将 顺利 完成 物 联网 和 决策 科学 前 期 学 习 ， 为 踏 上 精彩 纷呈 的 智能 
决策 旅程 做 好 充分 准备 。 

总 体 而 言 ， 为 了 精心 策划 智能 决策 学 习 之 旅 ， 本 书 详细 研究 了 物 联网 ， 学 习 解 析 、 
设计 和 解决 物 联网 问题 的 技术 ， 并 且 探 索 了 物 联网 的 颠覆 性 创新 。 最 后 ， 现 在 要 着 重 关 
注 物 联 网 的 未 来 。 

本 章 将 介绍 以 下 主题 : 

物 联 网 商业 模式 一 一 资产 或 设备 即 服务 。 
智能 手表 一 一 医疗 保健 物 联网 的 助 推 器 。 
智能 医疗 保健 一 一 人 类 互联 到 智能 人 类 。 
从 汽车 互联 向 智能 汽车 演变 。 


D 


D DU 


9.] 物 联网 商业 模式 


资产 或 设备 即 服务 


物 联 网 始 于 “设备 互联 和 资产 互联 ”的 简单 概念 。 由 互联 设备 组 成 的 小 型 网 络 让 许 
多 任务 变 得 更 加 简单 和 直观 ， 而 这 在 以 前 是 不 可 行 的 。 逐 渐 地 ， 设 备 互联 /资产 互联 为 智 
能 设备 /资产 开辟 了 许多 新 的 机 遇 。 上 是 眼 之 间 ， 演 变 的 速度 加 快 了 ， 而 人 们 在 消费 电子 、 
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家 电 以 及 工业 资产 的 各 个 层面 也 都 切切 实 实 地 实现 了 智能 设备 。 随 着 技术 的 成 熟 ， 智 能 
工厂 的 概念 也 在 发 展演 变 , 即 工业 4.0 或 第 四 次 工业 革命 , 智能 连接 运营 也 终 将 成 为 现实 ， 
而 今 全 球 各 地 的 成 功 案例 也 数不胜数 。 

追根 溯源 ， 资 产 即 服务 模式 源 自 世界 广泛 采用 的 “租赁 模式 ”。 您 可 以 将 房子 、 车 
辆 ， 或 一 些 电 器 出 租 一 段 时 间 ， 在 租 期 内 从 中 赚 取 租 金 ， 例 如 出 租 一 个 星期 或 一 个 月 。 
租赁 房子 的 想法 相当 简单 ， 但 是 在 租赁 汽车 或 工厂 机 器 时 ， 这 种 模式 却 有 其 自身 的 挑战 。 
对 您 自己 而 言 ， 自 然 会 十 分 小 心地 爱护 自己 的 车 ， 但 是 租赁 给 他 人 时 ， 却 无 法 保证 这 个 
人 同样 也 会 对 汽车 悉心 爱护 。 假 设 他 驾驶 您 的 汽车 时 不 仅 堆放 过 多 的 行李 ， 而 且 还 不 顾 
一 切 地 莽撞 驾驶 。 那 么 超速 、 漂 移 、 制 动 加 速 等 许多 不 良 驾 驶 习惯 ， 都 会 对 您 的 汽车 造 
成 严重 的 损害 ， 并 且 在 未 来 一 段 时 间 内 这 些 损 害 可 能 完全 不 会 被 注意 到 。 这 时 ， 租 赁 车 
辆 的 租金 永远 无 法 弥补 您 的 汽车 所 遭受 的 潜在 损失 ， 因 此 这 种 情况 导致 这 种 模式 成 为 一 
个 不 可 行 的 解决 方案 。 对 于 工业 资产 租赁 也 同样 如 此 。 只 有 少数 维度 可 以 用 来 衡量 租金 
的 真实 量化 使 用 ， 例 如 时 间 、 行 驶 距离 或 一 些 工业 指标 (如 制造 数量 ) 来 计算 资产 的 使 
用 情况 等 等 。 人 们 缺乏 明确 而 具体 的 手段 ， 去 抓 取 大 部 分 有 助 于 界定 租赁 期 间 真实 使 用 
情况 的 维度 。 

如 今 物 联网 早已 被 人 们 广泛 采用 。 在 物 联网 中 ， 安 装 各 种 各 样 的 传感器 ， 连 接 到 网 
络 ， 并 与 其 他 设备 通信 ， 这 些 都 能 将 资产 或 设备 的 真实 使 用 和 损害 情况 抓 取出 来 ， 从 而 
也 让 这 一 整个 想法 能 够 变 成 现实 。 安 装 大 量 传感器 就 能 捕获 到 最 细 粒 度 〈 比 如 说 每 微 秒 ) 
的 数据 ， 可 将 其 利用 在 最 初 没 有 考虑 到 这 一 点 的 一 些 更 新 领域 中 。 这 种 情况 通常 被 称 为 
“融合 引起 的 颠覆 性 创新 ”， 即 一 个 领域 的 创新 引发 了 相关 领域 和 非 相关 领域 的 创新 和 
颠覆 性 创新 。 收 音 机 的 发 明 这 个 例子 就 能 很 好 地 帮助 人 们 理解 这 一 点 。 收 音 机 实际 上 是 
在 发 现 无 线 电波 20 年 后 发 明 的 。 无 线 电波 的 发 现 从 来 没有 和 旨 在 发 明 收 音 机 ， 但 是 随 着 时 
间 的 推移 ， 颠 覆 性 创新 在 整个 产业 中 蔓延 。 下 面 通过 一 个 实际 的 例子 ， 简 要 了 解 物 联网 
中 的 资产 即 服务 模式 ， 以 及 它 将 如 何在 肯 眼 之 间 改 变 产 业 的 动态 。 


9.1.1 动机 


在 这 个 瞬息 万 变 的 世界 里 ， 变 化 是 唯一 不 变 的 。 这 绝对 是 一 个 陈 词 滥 调 ， 但 是 对 于 
这 个 商业 模式 却 完全 有 效 。 各 个 行业 采用 的 商业 模式 和 手段 ， 在 很 短 的 时 间 内 就 会 发 生 
天 翻 地 覆 的 变化 。 业 务 流程 必须 不 断 地 演变 ， 才 能 满足 消费 者 日 益 增长 的 动态 需求 。 在 
这 样 一 个 不 断 演变 的 世界 里 ， 企 业 为 所 需 的 基础 设施 投入 巨大 的 资金 变 得 越 来 越 困 难 。 
例如 ， 用 美国) 一 家 打车 服务 公司 一 一 优 步 (Uber) 公司 来 举例 ， 他 们 比 以 往 更 容易 
利用 出 租车 服务 。 假 设 优 步 公 司 将 拥有 所 有 车 辆 作为 商业 战略 的 一 部 分 。 随 着 业务 的 增 
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长 , 他 们 将 不 得 不 购买 越 来 越 多 的 汽车 以 满足 业务 需求 。 最 终 总 有 一 天 , 公司 将 拥有 1000 
万 辆 汽车 用 来 服务 ， 与 此 同时 也 假设 世界 上 将 不 再 有 汽油 /柴油 储备 。 随 着 电动 或 太阳 能 
汽车 的 发 展 ， 汽 车 工业 将 会 发 生根 本 性 的 变化 。 在 这 一 点 上 ， 优 步 公司 用 新 电动 汽车 取 
代 现 有 的 1000 万 辆 汽车 将 是 一 笔 十 分 巨大 的 成 本 ， 而 且 完 全 不 可 行 。 但 是 ， 如 果 该 公司 
只 是 租 了 车 而 不 是 拥有 车 呢 ? 他 们 用 新 电动 汽车 蔡 代 化 石 燃 料 车 是 非常 方便 的 。 

业务 需求 的 演变 导致 颠覆 性 创新 发 生 了 彻 彻 底 底 的 变化 。 随 着 技术 的 出 现 ， 这 些 变 
化 的 演变 也 在 加 速 。 在 这 样 一 个 充满 活力 的 世界 里 ， 对 于 任何 企业 来 说 ， 投 资 基础 设施 
都 不 是 一 个 很 好 的 选择 。 随 着 需求 的 不 断 变化 ， 在 商业 服务 中 采用 灵活 多 变 的 策略 ， 以 
适应 不 仅 更 新 且 已 改良 后 的 资产 将 更 具有 经 济 意 义 。 因 此 ， 业 界 预 计 会 发 生 一 种 巨大 的 
转变 ， 即 从 拥有 资产 向 租赁 资产 〈 即 利用 资产 即 服务 商业 模式 ) 的 趋势 发 展 。 通 过 利用 
资产 即 服务 模式 ， 物 联网 的 出 现 使 得 设计 一 个 经 济 和 具有 战略 可 行 性 的 商业 模式 成 为 
现实 。 

新 的 商业 模式 既 可 以 帮助 消费 者 维持 低 成 本 ， 也 能 随 着 新 需求 的 发 展 而 更 快 地 演变 ， 
从 长 远 来 看 ， 每 个 资产 的 收入 将 会 大 幅 增 加 。 假 设 一 家 公司 出 售 一 台 设 备 〈 如 笔记 本 电 
脑 ) 可 获得 800 美元 。 但 如 果 相 反 这 家 公司 在 前 两 年 以 每 季度 100 美元 的 价格 出 租 ， 然 
后 在 未 来 3 年 则 (每 季度 ) 按 60 美元 出 租 ， 那 么 5 年 内 租金 将 达到 1500 美元 以 上 。 消 
费 者 只 需 用 6 个 月 的 笔记 本 电脑 时 ， 就 可 选择 “笔记 本 电脑 即 服务 ”模式 ， 而 不 是 购买 
了 电脑 ， 使 用 后 又 再 卖 掉 。 


9.1.2 ”资产 即 服务 模式 的 现实 生活 用 例 


下 面 来 举 一 个 与 日 常生 活 相关 的 简单 用 例 ， 详 细 了 解 资产 即 服务 模式 对 于 消费 者 和 
商业 利益 相关 者 的 诸多 好 处 。 比 如 ， 您 是 一 家 价值 数 百 万 美元 的 公司 的 首席 执行 官 ， 而 
且 十 分 渴望 拥有 几 台 豪华 汽车 。 您 最 喜欢 由 高 端 汽 车 制造 商 推出 的 最 新 豪华 车 型 ， 因 此 
您 几乎 每 年 都 会 卖 掉 旧 车 再 购买 新 车 。 过 了 一 段 时 间 ， 您 意识 到 由 于 汽车 转 售 时 属于 二 
手 车 ， 因 而 转 售 价值 受 损 了 。 况 且 频 繁 更 换 汽车 也 承受 了 重大 损失 。 尽 管 您 家 道 息 实 ， 
也 肯定 有 能 力 为 您 的 冲动 承担 这 些 损 失 ， 但 是 如 果 能 找到 一 个 更 好 的 、 更 具 成 本 效益 的 
选择 , 那 就 再 好 不 过 了 。 于 是 , 您 去 找 能 够 提供 “豪华 汽车 即 服务 ” 的 ABC 公司 〈 假 设 ) 。 
该 公司 提供 了 一 个 方案 ， 只 要 您 愿意 ， 只 需 支 付 使 用 费 就 可 以 开 走 一 辆 车 。 假 设 您 驾驶 7 
系 宝马 汽车 一 年 ， 仅 需 支 付 在 此 期 间 所 使 用 的 服务 的 费用 。 该 公司 设计 了 一 个 算法 ， 按 
照 您 使 用 汽车 的 时 间 + 驾 驶 的 里 程 数 + 对 汽车 质量 (如 损害 ) 的 影响 来 计算 总 金额 。 您 简 
单 地 算 了 一 下 ， 很 快 就 发 现 这 个 总 金额 明显 低 于 转 售 二 手 汽车 所 造成 的 损失 。 因 此 您 认 
为 这 样 的 方案 无 可 挑剔 ! 
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这 种 模式 可 以 极 大 地 帮助 您 减少 购买 新 车 的 费用 ， 同 时 也 减轻 了 转 售 旧 车 所 承担 的 
损失 和 必要 的 文书 工作 。 您 可 以 每 年 更 换 一 辆 车 ， 选 择业 界 中 最 新 最 好 的 车 型 。 假 设 您 
是 宝马 汽车 的 忠实 粉丝 ， 在 每 一 年 的 1 月 份 ， 您 都 会 看 到 一 个 您 十 分 渴望 驾驶 的 全 新 车 
型 。 那 么 “豪华 轿车 即 服务 ”就 是 您 最 好 的 伴侣 。 消 费 者 可 以 选择 更 具 成 本 效益 的 计划 ， 
而 汽车 公司 可 以 从 更 长 的 时 间 内 赚 取 更 多 的 费用 ， 同 时 也 可 以 避免 潜在 的 损失 。 通 过 安 
装 各 种 传感器 ， 汽 车 公司 能 够 清楚 您 是 否 超速 或 在 内 部 或 外 部 对 车 辆 造成 任何 损害 。 而 
造成 的 所 有 损失 也 都 会 计算 在 使 用 费 内 ， 您 需要 为 此 付费 。 总 而 言 之 ， 这 种 商业 模式 为 
消费 者 和 企业 都 带 来 了 福音 。 

再 举 一 个 并 不 像 豪华 汽车 那样 昂贵 的 资产 ， 该 模式 仍然 可 实施 一 个 可 行 的 解决 方案 。 
资产 /设备 即 服务 模式 可 以 扩展 到 任何 设备 或 任何 价位 的 机 器 。 


9.1.3 ”这 个 商业 模式 如 何 帮助 企业 


至 此 已 经 研究 了 从 长 远 来 看 如 何 利 用 “资产 即 服 务 ” 帮 助 消费 者 和 企业 。 接 下 来 简 
单 地 探讨 它 将 如 何 工作 。 如 今 大 多 数 企 业 都 是 非常 灵活 多 变 的 。 他 们 总 是 处 于 需要 快速 
试验 的 状态 。 如 果 环 境 有 利于 企业 成 长 ， 新 业务 就 能 以 无 比 惊人 的 速度 建立 起 来 。 早 些 
时 候 ， 一 家 大 型 跨国 公司 如 果 要 在 新 的 国家 开展 业务 ， 那 么 要 终结 运营 开销 是 一 个 无 比 
艰难 的 过 程 。 初 始 的 运营 筹备 一 结束 ， 就 需要 为 运营 活动 建立 一 个 办 公 区 域 并 采购 后 勤 
物资 。 而 这 时 巨额 的 投资 才刚 刚 开始 。 

建立 、 扩 大 甚至 试验 一 项 新 业务 ， 最 大 障碍 在 于 它 所 耗费 的 时 间 和 投资 上 。 假 设 我 
们 是 一 家 坐落 在 美国 本 土 的 大 型 啤酒 连锁 店 ， 作 为 扩张 计划 的 一 部 分 ， 要 将 重点 放 在 为 
新 业务 开拓 新 市 场 上 面 。 公 司 团队 在 印度 班加罗尔 发 现 了 建立 啤酒 厂 的 巨大 潜力 。 尽 管 
并 不 确定 在 班加罗尔 开设 新 的 啤酒 厂 是 否 会 取得 成 功 ， 但 绝对 值得 一 试 。 

为 了 启动 运营 ， 亟 须 一 笔 巨额 投资 。 这 些 投资 用 以 支付 酿造 啤酒 所 需 的 后 勤 采 购 成 
本 ， 比 如 购买 各 种 各 样 的 容器 和 机 器 ， 用 于 制 成 麦芽 、 过 滤 、 酿 造 麦芽 汁 、 发 酵 、 巴 氏 
杀菌 和 最 后 钢 装 等 。 假 设 可 以 在 本 地 购买 这 些 机 器 ， 将 它们 轻松 集成 到 自动 酿造 机 中 。 
整个 装置 〈 即 仅仅 是 机 器 ) 的 成 本 约 为 500 万 美元 。 最 后 ， 租 用 一 个 5000 平方 英尺 的 场 
所 ， 购 买 电脑 、 空 调 、 音 响 系 统 、LED 显示 器 、 厨 房 设备 、 洗 碗 机 等 资产 ， 以 及 启动 运 
营 所 需 的 其 他 任何 东西 ， 又 将 花费 500 万 美元 。 因 此 , 在 一 项 新 业务 上 投资 1000 万 美元 ， 
冒 着 一 切 风险 但 却 对 这 家 酿酒 厂 是 否 成 功 没 有 十 足 把 握 ， 这 不 免 让 人 忧心 虱 刷 。 可 是 ， 
不 承担 风险 又 是 一 个 更 大 的 风险 ， 因 为 可 能 会 错过 利润 丰厚 的 商业 机 会 。 既 然 如 此 ， 让 
我 们 来 假设 最 坏 的 情况 。 公 司 展开 了 业务 运营 ， 之 后 意识 到 在 6 个 月 内 无 法 与 本 地 竞争 
者 抗衡 ， 也 认识 到 最 理想 的 解决 办 法 是 结束 运营 。 但 是 这 时 出 售 所 有 已 购 后 勤 物资 并 恢 
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复 之 前 的 运营 ， 将 会 造成 重大 损失 。 在 6 个 月 内 转手 出 售 所 有 已 购 资 产后 ， 极 可 能 只 拿 
回 350—400 万 美元 。 一 言 概 之 ， 我 们 十 分 清楚 由 于 时 间 和 投资 的 问题 ， 阻 碍 了 现在 许多 
企业 在 全 新 领域 中 进行 试验 。 

假如 能 够 解决 大 部 分 这 些 痛 点 ， 并 且 减 轻 一 大 部 分 的 风险 呢 ? 答案 显而易见 ， 如 果 
利用 资产 即 服务 模式 ， 这 一 切 都 会 成 为 可 能 。 对 于 这 个 用 例 ， 假 设 有 一 个 业务 合作 伙伴 
可 以 利用 强大 的 物 联 网 生态 系统 ， 将 啤酒 三 运 营 所 需 的 一 切 作为 服务 提供 给 我 们 。 要 做 
的 是 交纳 保证 金 200 万 美元 ， 而 且 只 需 支 付 使 用 的 服务 费用 。 该 公司 提供 的 每 一 项 资产 
都 将 安装 大 量 的 传感器 ， 以 监测 和 测量 最 细 粒 度 的 (设备 ) 使 用 情况 。 (在 运营 中 ) 检 
测 机 器 损坏 或 使 用 不 当 的 各 种 方法 都 可 能 会 降低 效率 ， 实 际 上 ， 要 求 在 最 细 粒 度 上 量 
机 器 /资产 使 用 情况 所 需 的 一 切 ， 都 在 场地 配置 好 了 。 这 时 ， 可 以 利用 “资产 即 服务 ” 模 
式 来 构建 一 个 商业 模式 ， 该 模式 将 按照 啤酒 酿造 的 总 量 向 你 收取 费用 ， 而 不 考虑 损失 成 
本 (举例 ) 。 因 此 ， 我 们 不 用 担心 基础 设施 的 装配 ， 只 需 为 使 用 的 服务 付费 即 可 。 这 样 ， 
运营 成 本 成 为 一 个 象征 性 的 费用 ， 而 不 是 随 着 运营 规模 的 扩大 而 增加 。 

经 过 相当 长 一 段 时 间 (比如 6 个 月 ) 的 经 营 ， 那 么 根据 经 营 状 况 ， 大 致 会 出 现 以 下 3 
种 结果 。 下 面 认 真 思考 每 一 种 结果 的 情况 究竟 如 何 。 

1. 最 好 的 情况 

经 营 状况 颇 佳 ， 可 以 发 现 业 务 深 受 客户 欢迎 。 这 让 企业 信心 倍增 ， 不 仅 打算 把 业务 
进行 下 去 而 且 考 虑 扩张 。 公 司 可 仍然 采用 “资产 即 服务 ”模式 快速 扩张 业务 ， 或 者 为 了 
提高 利润 率 ， 此 时 可 以 放心 地 将 资金 投入 业务 中 赚 取 更 多 利润 。 

2. 最 坏 的 情况 

我 们 十 分 清楚 其 他 竞争 者 对 啤酒 厂 造成 的 强劲 竞争 冲击 ， 而 且 运营 既 要 生存 下 去 又 
要 保持 盈利 也 变 得 愈加 困难 。 目 前 关闭 班加罗尔 的 业务 似乎 更 切实 可 行 。 那 么 ， 可 以 终 
止 与 该 公司 的 合同 ， 不 再 使 用 他 们 的 资产 。 他 们 会 向 我 们 收取 200 万 美元 左右 的 使 用 费 ， 
以 及 一 小 部 分 的 资产 整体 折旧 费 ， 同 时 返还 90% 的 保证 金 。 此 时 我 们 总 共 只 损失 了 (200 
万 美元 +100 万 美元 ) ， 即 300 万 美元 。 这 绝对 是 一 个 损失 ， 但 仍然 比 其 他 方式 造成 的 损失 
要 少 得 多 。 如 果 我 们 购买 了 所 有 必需 的 资产 再 转手 出 售 ， 可 能 会 损失 约 600—700 万 美元 。 

3. 不 好 也 不 坏 的 情况 

经 营 状况 还 不 错 ， 但 是 可 能 还 需要 更 多 的 时 间 考 虑 ， 才 能 放心 地 做 出 退出 或 扩大 运 
营 的 决策 。 这 时 还 可 继续 采用 相同 的 商业 模式 多 坚持 6 个 月 ， 这 将 会 多 花费 200 万 美元 。 

4. 结论 

总 而 言 之 ，“ 资 产 即 服务 ”模式 主要 帮助 企业 以 最 小 的 投资 快速 尝试 、 启 动 或 扩展 
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业务 并 降低 风险 。 另 一 方面 ， 提 供 服务 的 一 方 也 能 获得 一 笔 利润 丰厚 的 交易 ， 可 以 在 适 
当 的 时 候 从 每 项 资产 中 获得 3 倍 的 利润 。 

对 消费 者 也 同样 如 此 。“ 设 备 即 服务 ”模式 可 以 在 消费 电子 和 家 用 电器 中 实现 。 有 
很 多 设备 ， 人 们 只 需 使 用 一 小 段 时 间 ， 但 是 不 得 不 买 下 来 。 比 方 说 ， 购 买 一 台数 码 单反 
相机 ， 包 括 一 年 的 旅行 和 假期 在 内 ， 总 共 只 使 用 了 30 天 。 如 果 可 以 选择 数码 单反 相机 即 
服务 ， 并 且 只 为 实际 使 用 付出 一 小 部 分 的 费用 ， 岂 不 是 一 件 很 美妙 的 事情 ? 另外， 每 次 
度假 ， 都 有 可 能 用 到 市 面 上 最 新 的 数码 单反 相机 。 因 此 ， 追 求 成 本 效益 实际 成 为 “资产 
即 服务 ”模式 中 的 真正 目标 。 


9.1.4 利用 决策 科学 增强 资产 即 服务 模式 


在 接触 物 联网 时 ， 决 策 科 学 就 变 得 不 可 或 缺 。“ 资 产 即 服务 ”模式 由 于 它 在 资产 和 
设备 的 使 用 模式 中 所 提供 的 可 见 性 ， 令 它 在 业内 受到 万 众 瞩目 。 然 而 ， 决 策 过程 仍 然 膀 
肛 不 清 ， 还 需要 结合 高 级 分 析 和 决策 科学 ， 才 能 提供 让 商业 模式 成 功 所 需 的 东西 。 

了 解 损失 ， 衡 量 资产 的 使 用 情况 ， 研 究 对 效率 的 影响 ， 以 及 整体 资产 的 折旧 是 一 项 
艰巨 的 任务 。 因 而 ， 业 界 采 用 了 灰 盒 模型 〈grey box model) ， 即 将 机 器 过 程 的 物理 /热力 
学 与 数学 相 结 合 ， 将 机 器 使 用 情况 解析 并 理解 为 一 个 新 的 基础 单元 。 灰 盒 模型 结合 了 数 
学 的 学 习 ， 并 将 它 与 热力 学 、 物 理学 和 其 他 相关 领域 的 通用 学 习 结合 起 来 研究 一 个 事件 。 
为 了 简单 起 见 ， 来 举例 一 个 驾驶 汽车 的 情况 。 众 所 周知 ， 和 鲁莽 驾驶 、 超 速 和 和 刹车 时 的 加 
速 会 阻碍 发 动机 的 效率 。 然 而 ， 采 用 数据 驱动 策略 来 确定 这 些 事件 是 否 真 的 对 发 动机 或 
汽车 造成 了 损害 ， 这 是 一 项 极其 困难 的 任务 。 识 别 这 些 事件 是 相当 容易 的 ， 但 量化 这 些 
事件 对 发 动机 的 影响 是 无 比 困难 的 任务 。 我 们 不 能 制定 类 似 这 样 的 规则 ， 如 刹车 时 加 速 
超过 10 秒 时 ， 对 整个 车 辆 造成 0.5% 的 伤害 。 它 要 求 将 工业 过 程 、 物 理学 、 热 力学 、 汽 车 
工程 学 以 及 决策 科学 的 知识 深度 结合 起 来 ， 设 计 一 个 能 够 量化 事件 对 资产 影响 的 过 程 。 

“资产 即 服务 ”和 “设备 即 服 务 ” 商 业 模 式 很 快 将 从 根本 上 改变 业务 动态 。 这 些 商 
业 模 式 在 消费 电子 设备 以 及 工业 机 械 中 的 广泛 采用 ， 在 业内 已 经 积攒 了 不 少 成 功 案例 。 
很 快 ， 将 目睹 越 来 越 多 的 企业 广泛 采用 这 些 相同 的 商业 模式 。 


9.2 ”智能 手表 一 一 医疗 保健 物 联网 的 助 推 器 


随 着 物 联 网 的 兴起 ， 医 疗 行业 正在 经 历 一 场 严峻 的 技术 浪潮 。 医 疗 保健 行业 不 断 地 
采用 互联 设备 ， 对 解决 方案 进行 创新 并 降低 成 本 。 智 能 医院 和 其 他 创新 早已 概念 化 ， 医 
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生 和 患者 之 间 实 现 了 数字 连接 之 后 ， 可 以 帮助 医生 更 快 地 获取 患者 的 健康 记录 ， 以 及 其 
他 可 用 来 精确 研究 患者 当前 病史 和 以 往 病史 的 细节 。 另 外 ， 正 如 在 第 8 章 “ 物 联 网 颠覆 
性 创新 ”中 研究 的 ， 随 着 物 联网 的 蓬勃 发 展 和 苏 履 性 创新 的 不 断 涌现 ， 利 用 基因 组 学 来 
获得 更 好 的 医疗 保健 解决 方案 已 在 实践 中 运用 了 。 

同时 ， 人 们 发 现 智能 手表 在 业内 也 是 备 受 瞩目 。 智 能 手表 基本 上 可 以 连接 到 各 种 不 
同 的 设备 ， 如 智能 手机 、 其 他 智能 手表 和 智能 设备 。 它 通常 配备 有 各 种 各 样 的 传感器 ， 
并 且 不 仅仅 是 显示 时 间 。 在 智能 手表 中 安装 了 加 速度 计 、 陀 螺 仪 、 计 步 器 、 心 率 监测 器 、 
环境 温度 、 气压 传感器 、 磁力 仪 、 血 氧 饱和 度 传感器 、 皮 肤 电 导 率 和 温度 传感器 以 及 GPS 
等 传感器 ， 以 收集 和 处 理 最 细 粒 度 〈 几乎 每 微 秒 ) 的 数据 。 所 有 这 些 传感器 结合 在 E 
揭示 了 人 类 行为 许多 未 曾 见 过 的 维度 ， 这 对 医疗 保健 行业 可 能 是 大 有 益处 的 。 智 能 
co cp Me T 但 这 种 情况 将 很 快 就 会 改变 。 i ipud 
将 会 采用 智能 手表 让 生活 方式 变 得 更 加 健康 。 

智能 手表 可 以 跟踪 人 们 行走 的 步 数 ， 了 解 人 们 消耗 的 卡路里 量 ， 告 诉 人 们 是 否 承受 
过 多 的 身体 压力 ， 还 可 以 研究 人 们 身体 所 需 的 睡眠 量 。 大 多 数 情况 下 ， 人 们 对 所 有 这 些 
事件 都 有 一 个 抽象 的 理解 ， 但 是 这 些 具 体 信息 因 人 而 异 。 传 感 器 技术 取得 了 新 的 进步 ， 
能 够 分 析 人 们 的 心率 、 汗 液 和 体温 ， 并 利用 数据 进行 各 种 医疗 诊断 ， 帮 助人 们 保持 健康 。 
9.1 从 较 高 层次 上 显示 了 传感器 所 捕获 到 的 数据 , 以 及 医生 和 医疗 保健 研究 人 员 如 何 利 
这 些 数 据 。 
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图 9.1 很 好 地 诠释 了 智能 手表 的 未 来 。 市 场 对 智能 手表 技术 的 重大 改进 感到 十 分 乐 
观 ， 因 为 智能 手表 技术 将 能 够 感知 人 们 的 日 常 习惯 ， 如 饮食 、 工 作 和 睡眠 习惯 ， 而 且 更 
精确 、 更 详细 地 分 析 人 类 行为 。 智 能 手表 可 以 提供 实时 的 建议 ， 让 人 们 达到 最 佳 的 饮食 
习惯 ， 提 升 能 量 保持 健康 。 它 还 可 以 研究 和 分 析 人 们 身体 上 的 汗液 ， 对 他 们 应 该 何 时 喝 
水 或 何 时 喝 能 量 饮料 以 及 该 喝 多 少 等 给 出 建议 ， 好 让 他 们 保持 精力 充沛 。 此 外 ， 它 可 以 
研究 人 们 的 心率 和 步 速 ， 建 议 减速 或 加 快 。 同 时 也 可 以 研究 人 们 的 睡眠 模式 ， 而 且 如 果 
他 们 睡眠 不 足 就 建议 多 睡 一 会 。 在 一 定 程度 上 ， 它 还 可 以 使 用 先进 的 传感器 来 研究 饮食 
习惯 和 食物 的 营养 质量 。 有 一 些 传感器 则 可 以 通过 研究 人 们 的 呼吸 模式 来 了 解 他 们 的 压 
力 。 这 些 细节 都 能 够 发 送 给 个 人 医生 ， 然 后 医生 可 利用 人 们 完整 的 病史 和 当前 的 生活 方 
式 ， 为 他 们 的 疾病 精准 地 推荐 药物 。 

接 下 来 ， 也 可 以 期 待 智能 手表 能 够 提前 预测 人 们 陷入 致命 疾病 的 可 能 性 ， 从 而 减少 
死亡 的 概率 。 也 希望 当 人 们 遭遇 医疗 紧急 状况 时 ， 智 能 手表 会 给 他 们 的 亲人 发 出 重要 警 
报 。 总 而 言 之 ， 人 们 能 够 看 到 医疗 保健 行业 的 革命 性 变化 ， 关 键 在 于 智能 手表 。 故 事 并 
没有 就 此 结束 。 研 究 人 员 还 可 以 利用 消费 者 这 些 丰 富 而 翔实 的 数据 来 研究 疾病 。 医 学 研 
究 机 构 一 直面 临 着 在 医疗 评估 中 缺乏 参加 医疗 研究 的 志愿 者 问题 。 像 苹果 公司 这 样 的 技 
术 领 先 者 早已 开始 设计 基础 设施 ， 人 们 可 以 自愿 使 用 智能 手表 和 智能 手机 为 医学 研究 做 


出 贡献 。 
9.2/4 决策 科学 在 医疗 保健 数据 中 的 应 用 


利用 传感器 捕获 智能 手表 的 数据 ， 并 将 这 些 数据 传送 给 其 他 设备 ， 这 只 是 故事 的 其 
中 一 部 分 。 最 令 人 兴奋 的 部 分 是 ， 从 数据 中 寻找 信息 信号 来 帮助 决策 。 智 能 手机 向 人 们 
发 送 建议 ， 以 改善 他 们 的 健康 状况 ， 为 此 需要 应 用 机 器 学 习 、 人 工 智能 、 边 缘 计 算 和 认 
知 计算 等 众多 算法 ， 来 感知 、 处 理 和 分 析 数 据 。 它 再 次 要 求 一 个 决策 科学 家 须 从 多 个 学 
科 《〈 如 医疗 保健 和 行为 科学 ) 以 及 其 他 学 科 中 获得 更 多 的 知识 技能 。 这 种 将 数字 印象 转 
换 为 用 户 行为 ， 从 行为 中 提取 意义 ， 最 后 提供 建议 的 技术 ， 需 要 决策 科学 家 具有 多 学 科 
的 知识 技能 。 从 心率 监测 器 中 获得 的 结果 和 分 析 汗 液 的 结果 ， 可 用 来 建议 人 们 定期 喝 水 
或 能 量 饮料 ， 以 保持 身体 的 能 量 和 液体 水 平 。 而 对 呼吸 模式 的 研究 ， 可 以 帮助 理解 这 个 
人 是 否 感 到 泪 形 、 压 力 或 遇 到 医疗 紧急 状况 。 为 这 些 事件 构建 一 些 触 发 点 ， 并 不 是 仅仅 
基于 对 数据 进行 汇总 研究 得 出 的 一 些 简单 条 件 规则 。 整 个 过 程 可 以 概括 为 如 图 9.2 所 示 。 

将 智能 手表 捕获 的 数据 匿名 化 ， 并 存储 在 一 个 中 央 存 储 库 中 。 使 用 各 种 人 工 智能 自 
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我 学 习 算法 对 其 进一步 的 研究 和 分 析 ， 以 确定 人 们 的 正常 和 异常 行为 。 算 法 能 够 感知 用 
户 健康 数据 中 这 些 模式 的 存在 ， 综 合 这 些 学 习 来 选择 最 佳 的 行动 和 建议 ， 实 时 响应 。 把 
神经 科学 、 生 物 学 、 医 疗 保健 和 其 他 各 种 学 科 综 合 运 用 在 设计 自我 学 习 算法 上 ， 可 以 帮 
助人 类 过 上 更 加 健康 的 生活 。 


一 一 01 几 
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S 
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匿名 化 和 汇总 


用 户 健康 数据 


922 ”结语 


智能 手表 使 医疗 保健 行业 发 生 了 革命 性 的 变化 ， 并 由 此 产生 了 一 些 颠 履 性 创新 。 这 
些 益 处 不 仅 早 已 获得 了 业界 的 认可 ， 也 还 在 不 断 地 发 展演 变 。 在 未 来 的 日 子 里 ， 将 看 到 
在 各 个 社区 广泛 采用 智能 手表 ， 这 不 仅 帮助 人 类 变 得 更 加 健康 ， 也 让 生活 方式 变 得 更 加 
安全 且 更 加 完善 ， 从 而 让 人 类 受益 菲 浅 。 
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标题 可 能 听 起 来 很 奇怪 ， 但 这 绝 不 意味 着 我 们 不 够 聪明 。 干 真 万 确 ， 我 们 早 就 是 非 
常 聪明 的 个 体 了 ， 但 是 此 处 的 “聪明 ”是 能 够 指 识别 一 个 (人 类 ) 个 体 的 智能 手表 。 本 
章 研 究 了 智能 手表 如 何 为 医疗 行业 带 来 了 非凡 的 价值 。 大 多 数 人 早已 购买 了 像 耐 友 Fitbit、 
苹果 手表 等 智能 手表 或 健身 追踪 器 ， 还 有 更 多 其 他 品牌 的 智能 手表 。 人 们 一 直 使 用 这 些 


“304。 当 大 数据 遇见 物 联网 一 一 智能 决策 解决 之 道 


设备 来 追踪 健康 和 锻炼 计划 ， 或 者 研究 燃烧 的 卡路里 等 。 人 们 把 智能 手表 称 为 物 联 网 联 
盟 中 的 一 个 组 成 部 分 ， 但 是 仍然 遗漏 了 强调 智能 手表 中 一 个 非常 重要 的 通信 模式 ， 即 智 
能 手表 到 智能 手表 的 通信 。 

的 确 ， 不 同 智 能 手表 之 间 的 通信 ， 可 以 帮助 把 智能 手表 提高 到 一 个 较 高 层次 。 当 智 
能 手机 可 以 互相 通信 并 根据 数据 信号 做 出 决策 时 ， 它 几乎 能 够 完全 改变 人 们 的 生活 方式 。 
随 着 智能 手机 的 广泛 采用 ， 越 来 越 容 易 接触 到 亲近 的 人 。 人 们 再 也 不 用 担心 孩子 旅行 后 
是 否 安全 返 家 ， 或 者 在 他 们 迟 迟 未 归 的 时 候 惊 慌 失 措 。 可 以 只 是 通过 打 电 话 去 了 解 他 们 
所 到 之 处 ， 以 及 他 们 为 何在 途中 花 了 如 此 长 的 时 间 。 但 是 随 着 智能 手机 的 发 展 ， 人 们 之 
间 的 交流 变 得 越 来 越 紧密 ， 对 生活 方式 也 产生 了 很 大 的 影响 。 智 能 手表 也 能 如 此 ， 尽 管 
交流 更 多 的 是 出 于 健康 原因 。 

假设 您 拥有 一 个 六 口 之 家 ， 比 如 丈夫 、 妻 子 、 两 个 孩子 和 祖父 母 。 每 个 家 庭 成 员 都 
配 有 一 个 智能 手表 。 而 您 作为 丈夫 十 分 乐意 关注 家 人 的 健康 状况 。 智 能 手表 可 以 为 您 实 
时 反馈 身边 亲人 的 健康 警报 。 在 一 天 结束 时 ， 您 会 收 到 一 个 信息 更 新 ， 告 诉 您 白天 孩子 
日 晒 是 否 足够 ， 每 个 人 在 当天 是 否 摄 入 了 足够 的 营养 等 。 智 能 手表 也 会 将 您 的 父母 〈 即 
祖父 母 ) 是 否 按时 服药 的 信息 告知 您 。 通 过 家 庭 这 些 丰 富 而 翔实 的 实时 更 新 ， 您 以 最 少 
的 精力 采取 最 好 的 措施 ， 让 家 中 的 老 老少 少 都 能 够 保持 健康 。 

在 这 样 的 环境 下 ， 您 的 生活 方式 将 变 得 完全 不 同 。 接 下 来 对 下 面 情景 进行 举例 ， 来 
了 解 “ 智 能 人 类 ”演变 对 医疗 保健 的 影响 。 智 能 手表 研究 认为 在 孩子 饮食 中 需 增加 更 多 
营养 ， 为 此 根据 它 的 建议 ， 您 开始 在 家 庭 饮食 中 添加 更 多 的 叶 菜 。 而 且 ， 您 完全 掌握 了 
患 有 糖尿 病 的 父母 〈《 即 祖父 母 ) 的 血糖 水 平 情况 。 智 能 手表 为 您 提供 了 何 时 需要 为 他 们 
安排 胰岛 素 注射 的 信息 更 新 。 此 外 ， 您 的 妻子 在 办 公 室 工作 繁忙 ， 所 以 在 过 去 的 十 天 里 ， 
她 几乎 没有 时 间 在 健身 房 锻炼 。 您 现在 意识 到 妻子 远 远 落 后 于 她 的 健康 目标 了 ， 因 此 您 
在 她 工作 中 伸 出 援手 ， 以 确保 她 重 返 健康 的 正轨 上 并 保持 健康 。 由 于 父母 年 事 已 高 ， 万 
一 发 生 最 坏 的 情况 时 ， 智 能 手表 也 可 以 提供 最 好 的 措施 。 当 您 的 父母 需要 医疗 照顾 时 ， 
它 会 向 您 和 您 的 妻子 发 送 快速 警报 。 一 言 蔽 之 ， 您 用 最 少 的 精力 掌握 了 全 家 的 健康 情况 。 
对 于 需要 您 密切 关注 的 每 一 条 信息 ， 智 能 手表 都 以 无 比 简洁 的 格式 提供 给 您 ， 您 可 以 放 
心地 竭尽 全 力 维 护 身 边 亲人 的 健康 。 

这 听 起 来 是 不 是 妙 不 可 言 ? 想象 一 下 ， 如 果 所 有 人 都 拥有 如 此 美好 的 童年 ， 那 将 是 
多 么 的 方便 和 美妙 。 对 父母 而 言 ， 小 孩 照 顾 起 来 也 变 得 无 比 轻松 。 随 着 时 间 的 推移 ， 人 
们 将 看 到 智能 手表 的 连接 更 像 一 个 社交 网 络 。 在 紧急 情况 下 也 可 以 给 您 的 朋友 发 送 警报 。 
就 像 Facebook 给 您 发 送 提醒 一 样 ， 当 您 的 一 个 密友 在 您 附近 ， 万 一 您 需要 医疗 急救 ， 智 
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能 手表 就 能 用 来 提醒 您 最 好 的 朋友 。GPS 数据 可 以 进行 扫描 ， 这 时 离 您 物理 位 置 最 近 的 
朋友 能 够 快速 到 达 给 您 伸 出 援手 。 同 时 ， 智 能 手表 也 向 您 的 个 人 医生 和 附近 的 医院 发 出 
信号 ， 好 让 他 们 迅速 自动 地 为 您 的 紧急 情况 做 出 安排 。 

随 着 这 些 技术 的 广泛 应 用 ， 生 活 变 得 更 加 简单 轻松 ， 也 更 加 舒适 慨 意 。 市 场 上 智能 
手表 用 户 的 数量 越 多 ， 用 户 之 间 的 连接 就 越 好 。 与 单纯 的 连接 不 同 ， 人 们 与 其 他 人 分 享 
的 健康 /生活 ， 以 便 做 出 更 好 的 决策 ， 因 此 “智能 人 类 ”这 个 名 称 ， 说 明 人 会 做 出 基于 数 
据 驱 动 的 明智 决策 以 保持 健康 。 


94 从 汽车 互联 向 智能 汽车 演变 


在 探究 智能 手表 是 如 何 改变 游戏 规则 的 同时 ， 也 对 医疗 保健 行业 了 解 得 一 清二 楚 。 
智能 手表 利用 的 日 益 普及 ， 有 助 于 将 人 类 互联 演变 发 展 成 智能 人 类 。 这 些 成 功 故事 同样 
也 适用 于 多 个 行业 。 人 们 目睹 了 将 沉睡 的 资产 转化 为 资产 互联 及 其 向 智能 资产 的 演变 。 
现在 将 探讨 本 书 的 最 后 一 个 主题 ， 即 探寻 物 联网 如 何 为 一 个 充满 希望 的 未 来 英 定 基础 。 
接 下 来 将 研究 汽车 互联 向 智能 汽车 的 演变 。 

如 今 这 个 主题 更 多 的 是 一 个 概念 ， 而 且 也 只 看 到 了 现实 中 所 采用 的 可 能 性 的 一 小 部 

分 。 自 动 驾驶 汽车 也 是 这 种 演变 的 一 部 分 ， 但 还 有 更 多 的 事情 会 成 为 可 能 。 在 第 8 章 中 
研究 了 自动 驾驶 汽车 是 如 何 由 于 物 联网 导致 的 行业 颠覆 性 创新 而 诞生 的 ， 简 单 地 学 习 了 
自动 驾驶 汽车 与 日 常 使 用 的 互联 设备 的 改进 集成 。 如 果 回溯 在 第 1 章 “ 物 联网 和 决策 科 
学 ”中 研究 的 智能 设备 的 定义 ， 将 智能 设备 定义 为 ， 与 多 个 其 他 设备 相连 的 并 能 够 自行 
决策 以 改进 结果 的 任何 一 个 设备 。 在 这 里 ， 结 果 可 能 是 一 个 或 多 个 。 而 在 汽车 互联 向 智 
能 汽车 演变 的 过 程 中 ， 汽 车 试图 通过 自我 决策 来 将 结果 的 数量 增加 了 许多 。 这 款 智能 汽 
车 不 仅仅 是 一 辆 将 人 从 一 个 地 方 带 到 另 一 个 地 方 的 汽车 。 它 将 会 是 为 人 精心 打造 的 一 款 
奢侈 品 。 图 9.3 说 明了 在 汽车 互联 向 智能 汽车 演变 过 程 中 , 对 一 种 结果 进行 改进 的 不 同 功 
能 是 如 何 出 现 的 。 
在 这 里 试 着 想象 一 下 智能 汽车 将 会 改进 的 各 种 不 同 结果 。 这 时 我 们 的 脑海 中 立刻 会 
闪现 出 几 点 ， 即 自动 驾驶 、 自 动 引擎 优化 、 改 善 生 活 和 性 能 、 自 动 停车 等 。 在 第 8 章 “ 物 
联网 颠覆 性 创新 ”中 ， 研 究 了 一 个 假设 的 例子 ， 了 解 认 知 计算 如 何 对 物 联网 行业 进行 颠 
履 性 创新 ， 使 其 像 人 类 一 样 学 习 ， 并 与 其 他 服务 集成 以 提供 更 好 的 服务 。 与 此 用 例 类 似 ， 
可 以 理解 智能 汽车 基本 上 能 够 将 背景 信息 作为 一 个 维度 用 以 学 习 和 改进 ， 这 将 使 人 类 的 
生活 变 得 更 加 轻松 。 而 且 还 有 一 些 功 能 有 望 很 快 成 为 智能 汽车 的 功能 之 一 。 
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智能 加 油 助手 


9.4.1 智能 加 油 助 手 


在 长 距离 驾驶 的 过 程 中 ， 人 们 常常 错误 地 计算 加 油 间隔 。 驾 驶 时 ， 可 能 会 多 次 停车 
或 燃油 不 足 。 智 能 汽车 可 以 研究 汽车 的 里 程 ， 并 了 解 汽车 在 没有 加 油 的 情况 下 的 行驶 距 
离 。 利 用 GPS 数据 对 这 些 信息 进行 扫描 ， 可 以 找到 最 佳 和 最 近 的 加 油 站 。 它 可 以 像 提醒 
驾驶 员 在 接 下 来 五 英里 内 的 加 油 站 加 油 一 样 简单 ， 否则 ， 由 于 在 随后 50 英里 内 都 没有 加 
油 站 ， 汽 车 可 能 会 耗 尽 燃料 。 


94.2 ”预测 性 保养 


它 可 以 通过 各 种 指标 来 掌握 汽车 的 性 能 ， 如 发 动机 效率 、 排 放 、 振 动 和 油 位 、 加 热 水 
平 、 扭 矩 等 。 通 常情 况 下 ， 大 概 每 隔 1000 英里 就 可 以 估算 和 保养 汽车 ,但 实际 上 这 种 情况 
可 能 会 少 得 多 或 者 更 多 。 智 能 汽车 可 以 结合 机 器 学 习 、 人 工 智 能 和 汽车 工程 中 的 各 种 学 科 ， 
利用 灰 盒 模型 找 出 保养 的 最 佳 时 机 ， 同 时 考虑 最 终 目 标 来 优化 性 能 ， 而 且 具 有 成 本 效益 。 


943 自主 运输 


自动 驾驶 之 后 的 下 一 个 大 事件 就 是 自主 运输 。 您 可 以 让 自己 的 车 送 孩 子 上 下 学 ， 或 
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让 车 去 机 场 接 您 回 家 。 自 主 运输 将 是 一 项 革命 性 的 举措 ， 但 是 需要 认 知 计算 和 人 工 智能 
变 得 更 加 成 熟 之 后 ， 才 能 让 自主 运输 变 得 更 加 稳健 。 智 能 汽车 结合 运用 这 些 技术 来 理解 
人 的 要 求 ， 比 如 “把 我 送 到 机 场 ”。 它 既 能 够 清楚 您 家 庭 位 置 和 停车 位 ， 也 能 根据 您 的 
航班 时 刻 和 交通 数据 ， 自 主 决定 到 达 机 场 接 您 。 如 果 您 每 天 乘 火车 去 上 班 ， 它 还 能 够 学 
习 适 当 的 时 间 ， 准 时 把 您 送 到 车 站 或 按时 到 车 站 接 您 。 

智能 汽车 技术 必 将 带 来 更 多 的 创新 。 人 们 的 生活 将 比 十 年 前 观看 的 科幻 电影 所 想象 
和 梦想 的 要 多 得 多 。 智 能 汽车 和 自主 运输 是 一 个 规模 宏大 的 项 目 ， 必 然 要 花 一 些 时 间 才 
能 变 得 成 熟 以 供 消费 者 使 用 ， 但 是 当 这 一 时 刻 到 来 的 时 候 ， 它 不 仅 会 对 人 们 影响 巨大 也 
会 得 到 人 们 的 广泛 应 用 。 


94.4 结束 语 


展望 未 来 ， 对 这 个 世界 的 前 景 究 竟 会 是 怎样 追问 不 已 ， 人 们 给 出 了 无 比 肯 定 的 答案 。 
人 们 常常 思考 的 一 个 问题 不 免 发 人 深 省 ， 促 使 发 展 的 那 根 导 火 索 是 在 哪里 引发 的 ， 那 么 
多 的 技术 又 是 如 何 兴盛 起 来 的 ， 以 至 于 每 一 个 行业 的 角 角 落落 都 在 利用 这 些 技术 ， 为 建 
立 一 个 智能 且 充 满 希 望 的 未 来 英 定 基础 。 答 案 只 有 一 个 词 一 一 物 联网 。 若 要 理解 为 什么 
物 联网 成 为 未 来 每 一 项 创新 的 核心 的 原因 ， 只 需 思考 人 类 历史 上 帮助 人 类 进化 的 导 火 索 
就 不 言 而 喻 。 

在 古代 ， 火 与 轮 的 发 明 是 人 类 发 明 与 发 现 的 革命 性 突破 。 在 过 去 的 几 个 世纪 里 ， 工 
业 机 器 、 印 刷机 、 计 算 机 的 发 明 是 一 个 革命 性 的 突破 ， 推 动 了 各 个 角落 的 发 展 和 变革 。 
近年 来 ， 互 联网 的 诞生 彻底 改变 了 世界 ， 而 今天 却 是 “ 物 联网 ”。 在 第 8 章 “ 物 联网 颠 
履 性 创新 ”中 讨论 的 物 联网 的 颠覆 性 创新 和 突破 ， 给 世界 带 来 了 光明 的 未 来 ， 而 这 只 是 
其 中 一 小 部 分 例子 。 如 要 列 出 一 张 详尽 的 清单 无 疑 是 一 件 不 可 能 的 事 ， 也 超出 了 任何 一 
本 书 所 能 涵盖 的 范围 。 撰 写 最 后 两 章 的 整个 想法 是 ， 强 调 决策 科学 通过 物 联网 所 带 来 的 
影响 的 重要 性 和 规模 。 在 前 几 章 中 试图 解决 的 用 例 则 是 物 联网 革命 的 基石 。 
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在 本 章 和 本 书 中 ， 我 们 经 历 了 一 个 无 比美 好 的 学 习 旅 程 ， 在 物 联网 与 决策 科学 相遇 
的 那 一 刻 ， 让 我 们 学 会 了 如 何在 物 联网 中 构建 更 智能 的 决策 。 通 过 探究 决策 科学 的 基本 
原理 、 物 联网 和 行业 标准 框架 来 解决 问题 ， 从 此 就 开始 踏 上 了 精彩 纷呈 的 学 习 之 旅 。 接 
着 又 通过 研究 可 以 用 来 解析 问题 的 各 种 不 同 维度 ， 花 了 大 量 的 时 间 更 具体 地 理解 问题 。 
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在 第 2 章 中 ， 涉 足 物 联 网 问题 体系 的 两 个 重要 领域 :资产 互联 与 运营 互联 ， 并 且 学 会 了 
应 用 问题 解决 框架 来 设计 方法 并 起 草 问题 蓝图 。 同 时 采用 制造 业 一 个 真正 的 物 联网 用 例 ， 
尝试 解决 提高 制 成 品质 量 的 问题 。 

第 3 章 采用 R 语言 软件 ， 实 际 解决 第 2 章 中 解析 和 设计 的 商业 用 例 。 本 章 中 弄 清楚 
了 描述 性 分 析 和 探查 性 分 析 的 细微 差别 。 通 过 进行 各 种 探索 性 数据 分 析 来 检验 以 前 确定 
的 假设 ， 并 运用 各 种 统计 技术 验证 它们 ， 就 “是 什么 ”和 “为 什么 ”的 两 个 问题 给 出 了 
必要 的 答案 。 

至 第 4 章 时 ， 进 入 了 预测 性 分 析 的 世界 ， 掌 握 了 构建 线性 回归 、Logistic 回归 和 决策 
树 等 的 统计 模型 。 这 一 章 里 知道 问题 是 如 何 从 描述 性 到 探查 性 和 预测 性 阶段 演变 的 ， 并 
且 开发 出 了 可 以 帮助 预见 未 来 同时 回答 “ 何 时 ”的 问题 的 解决 方案 。 而 进入 第 5 章 时 ， 
通过 利用 机 器 学 习 和 深度 学 习 来 进一步 探索 预测 性 分 析 领 域 ， 以 改进 结果 。 到 本 章 结束 
时 ， 在 问题 由 描述 性 阶段 向 探查 性 阶段 再 到 预测 性 阶段 演变 期 间 ， 完 成 了 问题 解决 方案 
的 一 次 迭代 。 

而 到 了 第 6 章 ， 利 用 另 一 个 问题 解决 方案 的 迭代 ， 巩 固 在 决策 科学 方面 的 基础 。 这 
章 尝试 解决 可 再 生 能 源 行业 的 另 一 个 物 联网 用 例 。 通 过 对 问题 解决 框架 的 学 习 ， 迅 速 设 
计 和 开发 了 业务 问题 ， 并 通过 预测 性 分 析 实 际 解决 问题 。 进 入 第 7 章 后 ， 讨 论 了 决策 科 
学 堆栈 中 一 个 问题 的 最 后 阶段 ， 即 规范 性 分 析 。 通 过 研究 电信 行业 的 假设 用 例 ， 对 规范 
性 分 析 的 现象 一 探究 竟 。 探 寻 企业 如 何 利用 “为 什么 ”和 “ 何 时 ”的 问题 来 战胜 业务 灾 
难 ， 即 采取 规范 性 的 措施 。 而 后 ， 在 决策 科学 中 理解 了 问题 的 整个 过 程 ， 简 要 地 探讨 了 
业务 应 该 如 何 将 问题 体系 中 的 各 个 问题 点 连接 起 来 。 还 研究 了 故事 撰写 的 技术 ， 以 便 用 
最 易 用 和 最 清晰 的 形式 验证 和 展示 的 结果 

接着 第 8 章 中 ， 探 讨 了 物 联网 发 端 之 初 的 行业 颠覆 性 创新 。 对 一 些 例子 进行 剖析 以 
研究 物 联网 如 何 加 速 各 学 科 的 颠覆 性 创新 ， 以 及 它们 如 何 为 世界 贡献 创新 。 也 研究 雾 计 
算 、 认 知 计 算 、 下 一 代 机 器 人 和 基因 组 学 ， 以 及 自动 驾驶 汽车 的 概念 。 并 且 粗 浅 理解 一 
个 颠覆 性 创新 是 如 何 引发 另 一 个 颠覆 性 创新 的 ， 最 终 又 如 何 将 所 有 新 的 颠覆 性 创新 的 诸 
多 益处 ， 融 合 到 生态 系统 中 。 而 行 至 第 9 章 ， 细 究 物 联网 的 颠覆 性 创新 ， 了 解 它 如 何 为 
人 类 建立 一 个 智能 和 充满 希望 的 未 来 而 英 定 基础 。 与 此 同时 ， 探 索 了 “资产 即 服务 ”和 
“设备 即 服务 ”商业 模式 的 细微 差别 ， 也 更 多 地 探究 物 联网 医疗 保健 ， 并 研究 人 类 互联 
向 智能 人 类 以 及 汽车 互联 向 智能 汽车 的 发 展演 变 。 

简 而 言 之 ， 本 书 仔细 研究 物 联网 与 决策 科学 的 交叉 ， 并 且 借以 对 互联 世界 的 未 来 管 
中 将 豹 ， 揭 晓 了 智能 决策 的 重要 性 和 影响 。 


